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Prefacio 


Este libro se basa en las conferencias de estadística matemática que el autor 
dictó durante muchos años en el tercer curso de la facultad de matemáticas 
de la Universidad de Novosibirsk. Con el andar del tiempo, el curso de 
conferencias ha sido varias veces modificado en busca de una variante que 
fuera, en la medida de lo posible, más armoniosa y accesible, y que al mis- 
mo tiempo correspondiera al estado moderno de esta ciencia. Se probaron 
distintas variantes, comenzando por un curso de carácter principalmente 
prescriptivo, con la exposición de los tipos básicos de problemas (construc- 
ción de estimaciones y criterios y estudio de sus propiedades), y terminando 
por un curso de carácter general, dedicado a la teoría de los juegos, en 
el que la teoría de las estimaciones y la verificación de las hipótesis eran 
no más que casos particulares de un enfoque único. A consecuencia del 
tiempo limitado (un semestre) no fue posible unificar dichas variantes Ínti- 
mamente ligadas, cada una de las cuales poseía, por separado, defectos 
evidentes. En el primer caso, el conjunto de hechos concretos obstaculizaba 
el desarrollo de una opinión general en cuanto al objeto de estudio. La 
segunda variante carecía de resultados concretos sencillos y estaba sobrecar- 
gada de muchos conceptos nuevos, muy complejos, cuya asimilación cons- 
tituía una tarea extraordinariamente difícil. Por lo visto, la más conveniente 
es la variante en la que la exposición de los elementos de la teoría de las 
estimaciones y de la teoría de verificación de las hipótesis concuerda con 
el mantenimiento consecutivo de la línea de búsqueda de los procedimien- 
tos óptimos. 

Los capítulos fundamentales del libro se basan en el material unificado 
de las conferencias impartidas en tiempos diferentes y ampliadas a expensas 
de los apartados cuya presencia ha sido dictada por la propia lógica de 
exposición. El objetivo principal consiste en aclarar el estado actual de la 
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materia en concordancia con su accesibilidad máxima posible y la integri- 
dad y armonía matemática. 

El libro comprende $ capítulos y 8 suplementos. 

En el capítulo 1 se estudian las propiedades (fundamentalmente asintó- 
ticas) de las distribuciones empíricas, que constituyen la base de la estadísti- 
ca matemática. 

En los capítulos 2 y 3 se ofrecen, respectivamente, la teoría de las estima- 
ciones y la teoría de verificación de las hipótesis estadísticas. Las primeras 
partes de cada uno de estos capítulos están dedicadas a la descripción de 
los posibles enfoques de la resolución de los problemas planteados, así co- 
mo a la búsqueda de los procedimientos óptimos. Las segundas partes ofre- 
cen la construcción de los procedimientos asintóticamente óptimos. 

El capítulo 5 tiene esa misma estructura. En él se expone el enfoque 
general de los problemas de la estadística matemática desde el punto de 
vista de la teoría de los juegos. 

El capítulo 4 está dedicado a los problemas relacionados con dos 
muestras y más. 

Los suplementos del libro se hallan vinculados a las afirmaciones en 
el texto principal, cuya demostración sale fuera del marco de la exposición 
fundamental, ya por su carácter, ya por su dificultad. 

E! manual también contiene observaciones bibliográficas que no preten- 
den ser completas, pero que permiten seguir el surgimiento y el desarrollo 
de las principales tendencias de la estadística matemática. Además, por do- 
quier donde ha sido posible, se ha dado preferencia a las alegaciones mo- 
nográficas (como el tipo de literatura más accesible) y no a los artículos 
originales. 

Hoy día existen bastantes manuales de estadística matemática. Entre 
ellos cabe destacar los cuatro siguientes, en cuyas páginas se expone un 
amplio material que refleja el estado actual de la materia: son los libros 
de H. Cramer (25), BP. Lehmann [57], S. Zacks [95], 1.A. Ibraguímov y 
R.Z. Jasminski [48]. Pero la máxima influencia en la escritura de la obra 
presente fue ejercida por las monografías [48] (algunas ideas de este libro 
se han utilizado en los $$ 23—25, 27—-29 del cap. 2) y [57] (la exposición 
de los $9 5—-8 del capítulo 3 se asemeja, por su contenido, a los respectivos 
apartados de [57]). La demás exposición está poco relacionada, según su 
estructura, con los libros mencionados. 

Hay muchas otras obras que ocupan un lugar notable en la literatura 
estadística (tales como los libros de Blackwell y Girshak [7], Kendall y 
Stuart [49, 50), Cox y Hinkly [23], Ferguson [33], Rao [76] y una serie 
de otros — no hay posibilidad de presentar su enumeración completa), pero 
por su espíritu y por la selección del material, estos trabajos se distinguen 
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considerablemente de la monografía que se ofrece a la atención de los 
lectores ”. 

A la par co”. los resultados y enfoques conocidos, en el libro presente 
se han incluido algunos apartados nuevos que simplifican la exposición del 
material, se han hecho varias mejoras metodológicas y se han utilizado 
algunos resultados nuevos, así como resultados que se publican por primera 
vez en la literatura monográfica. 

A continuación se ofrece una descripción breve de la estructura metodo- 
lógica del libro (véanse también el índice y los prefacios breves de cada 
uno de los capítulos). 

En los $55 1 y 2 del capítulo 1 se intrducen los conceptos de muestra 
y de distribución empírica y se establece el teorema de Glivenko — Cantelli, 
el cual puede considerarse como un hecho fundamental que constituye la 
base de las deducciones estadísticas. 

En $ 3 se introducen dos tipos de estadísticas (de los tipos 1 y II) que 
comprenden la inmensa mayoría de las estadísticas prácticamente interesan- 
tes, las cuales se definen como valores G(P») de las funcionales G (que 
satisfacen ciertas condiciones) de la distribución empírica P;. Más adelante, 
en los $5 7 y 8 se establecen los teoremas del límite de distribución de dichas 
estadísticas. Esto simplifica la exposición posterior y permite no citar, para 
cada estadística concreta, prácticamente los mismos razonamientos que no 
se refieren, además, a la esencia de la cuestión. 

En el $ $ han sido reunidos los teoremas auxiliares (que en el libro se 
denominan “teoremas de continuidad””) sobre la convergencia de las distri- 
buciones y la convergencia de sus momentos. Ésto también simplifica la 
exposición posterior. 

En el $ 6 (no obligatorio en la primera lectura del libro) se establece 
que la función empírica de distribución Fx(f) es un proceso poissoniano 
condicional, y se ofrece la enunciación del teorema (demostrado en el suple- 
mento 1) de la convergencia des proceso vn(Fx(t) — F(t)) hacia el puente 
browniano. 

En el $ 10 se introducen las distribuciones empíricas suavizadas que per- 
miten aproximar no sólo la propia distribución, sino también su densidad. 

En el $ 3 del capítulo 2, dedicado a las estimaciones de los parámetros 
desconocidos, se introduce un método único de construcción de las estima- 
ciones, denominado "método de sustitución“. Este consiste en que la esti- 
mación 6” para el parámetro 0, representado en forma de la funcional 
0 = G(P) de la distribución P de la muestra, es preciso buscarla en forma 


En el año 1983 apareció un magnífico libro de E. Lehmann (58), en el cual, en adición 
a [57], se expone la actual teoría de estimación. 
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de 0” = G(Ps), donde P; es la distribución empírica. Todas las estimaciones 
"razonables*' usadas en la práctica son estimaciones Cs sustitución. La opu- 
mación de una estimación se alcanza eligiendo una funcional conveniente 
G. Si la estadística 9” = G(P») es de los tipos 1 ó II, los teoremas del capítu- 
lo 1 permiten establecer en seguida la valídez de estas estimaciones y su 
normalidad asintótica, En los $6 4 y 5, este enfoque es ilustrado por las 
estimaciones obtenidas mediante el método de momentos y el método de 
distancia mínima. Desde esas mismas posiciones también se podrían exami- 
nar las estimaciones de máxima verosimilitud ($ 6), pero su estudio inme- 
diato da la posibilidad de obtener resultados más profundos, que serán 
necesarios ulteriormente. 

La comparación de las estimaciones del capítulo 2 se realiza a base de 
dos enfoques: estándar o medio cuadrático (se comparan Ma (0* — 0)? y 
asintótico (se comparan las varianzas de la distribución límite vn(0* — 8) 
en la clase de estimaciones asintóticamente normales). En el caso para- 
métrico, esto permite destacar 3 tipos de estimaciones óptimas: estima- 
ciones eficientes en las clases K», con un desplazamiento fijo b, y 
estimaciones bayesianas y minimax. A base de esos mismos principios se 
separan las clases de estimaciones asintóticamente óptimas en el enfoque 
asintótico. Para construir las estimaciones eficientes se utilizan los siguien- 
tes métodos tradicionales: el primero tiene carácter cualitativo y está vincu- 
lado al principio de suficiencia (55 12—-14); el segundo se basa en las 
relaciones cuantitativas que se deducen de la desigualdad de Rao — Cramer 
($ 16); y el tercero se halla relacionado con las consideraciones de inva- 
riación ($$ 17 y 19) que permiten reducir la clase de las estimaciones someti- 
das a examen. 

Los $$ 20-—30 están dedicados a la determinación de las estimaciones 
asintóticamente óptimas y al estudio de las propiedades asintóticas de la 
función de verosimilitud. El párrafo 20 contiene la desigualdad integral del 
tipo Rao — Cramer que permite, en particular, obtener criterios simples 
de carácter asintóticamente bayesiano y minimax de las estimaciones, así 
como fundamentar la separación de cierta subclase de estimaciones Xo a 
la cual conviene limitarse en búsqueda de estimaciones asintóticamente efi- 
cientes. Esto da la posibilidad de establecer Inmediatamente en el $ 25, me- 
diante el estudio de las propiedades asintóticas de las estimaciones de 
verosimilitud máxima, el carácter asintóticamente bayesiano y minimax de 
las estimaciones mencionadas, así como su eficiencia asintótica en Ko. Los 
párrafos 21—-24 tienen carácter auxiliar. La estimación de los parámetros 
por intervalos se examina en los 58 31 y 32 y también en el $ 8 del capítulo 
3. 

El capítulo 3 está dedicado a la verificación de las hipótesis. En los 
$5 1 y 2 se examina el caso de un número finito de hipótesis simples. Se 
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destacan (de un modo análogo a la teoría de estimación) tres tipos de crite- 
rios óptimos: los más potentes en sus subclases, los bayesianos y los maini- 
max. Se establecen las relaciones entre estos criterios y se determina su 
forma evidente. Además, las consideraciones se basan en el principio baye- 
siano (y no en el lema de Neyman — Pearson) lo que, a nuestro juicio, 
simplifica la exposición y hace más comprensible el material. En el $ 3 se 
examinan los enfoques asintóticos del cálculo de los criterios para verificar 
dos hipótesis simples y se realiza su comparación. En el $ 4 se analiza el 
planteamiento general del problema sobre la verificación de dos hipótesis 
compuestas y se definen las clases de criterios óptimos (uniformemente más 
potentes, bayesíanos y minimax). El párrafo $ está dedicado a la búsqueda 
de criterios uniformemente más potentes en los casos cuando esto es po- 
sible. En los $8 6 y 7 se resuelve el mismo problema, pero en las clases 
de criterios contraídos a base de consideraciones de no desplazamiento y 
de invariación. Además, al igual que en los $$ 1 y 2, las consideraciones 
se basan en el enfoque bayesiano. En el $ 8 se construyen, con ayuda de 
los resultados obtenidos, los conjuntos confidenciales más exactos. En el 
$ 9 se examinan los criterios bayesianos y minimax. Los párrafos 10 y 13 
están dedicados al criterio de la relación de verosimilitud. Este criterio re- 
sulta uniformemente el más potente en muchos casos particulares y posee 
carácter asintóticamente bayesiano para conjeturas bastante amplias. El es- 
tudio de las propiedades de optimación asintótica del criterio de la relación 
de verosimilitud continúa en los $$ 15-—17. En el $ 11 se establece el valor 
óptimo de este criterio en los problemas del análisis sucesivo. Los párrafos 
14 y 15 están dedicados a la búsqueda de criterios asintóticamente óptimos 
para verificar las hipótesis afines, y se ha encontrado su forma explícita 
simple para los principales problemas estadísticos. 

Una particularidad importante de los tres primeros capítulos es el hecho 
de que en ellos se examinan tan sólo Jos problemas estadísticos relacionados 
con la utilización de una muestra. 

Como ya fue señalado, el capítulo 4 del libro está dedicado a los proble- 
mas de dos muestras y más. A ellos pertenecen, antes que nada, los proble- 
mas sobre la homogeneidad (completa o parcial, $5 1 y 2) y los problemas 
de regresión ($ 3) y del análisis de varianza (5 4). A base de los resultados 
del capítulo 3, para los problemas de homogeneidad (en el caso paramétri- 
co) se han construido los criterios asintóticamente óptimos, suponiendo 
que las hipótesis alternativas son semejantes a la hipótesis principal sobre 
la homogeneidad. Para los problemas de regresión (tanto para la regresión 
Lineal como para la relacionada con las funciones arbitrarias) se han halla- 
do, con ayuda de los resultados de los capítulos 2 y 3, las estimaciones 
eficientes de los parámetros desconocidos y se han construido los criterios 
para verificar las hipótesis principales. También han sido examinados los 
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llamados problemas de reconocimiento de imágenes ($ 5), los cuales, por 
lo visto, aparecen por primera vez en la literatura didáctica. 

El capítulo $ está dedicado al enfoque general de los problemas de esta- 
dística desde el punto de vista de la teoría de los juegos. Este enfoque 
contribuye a la formación de una opinión general acerca del objeto de estu- 
dio de la estadística matemática y permite generalizar muchos resultados 
de los capítulos 2 y 3. En el $ 2 se exponen los conceptos y resultados 
principales de la teoría ”ordinaria'* de los juegos (se examinan únicamente 
los juegos de dos personas). En particular, se establecen las relaciones entre 
los tipos principales de estrategias óptimas: bayesianas, minimax y las uni- 
formemente mejores en las subclases. En el $ 3 se estudian los juegos esta- 
dísticos. En el $ 4 se enuncia y se demuestra el llamado principio bayesiano 
que permite reducir el problema de búsqueda de la resolución estadística 
bayesiana a un problema mucho más fácil de construcción de la estrategia 
bayesiana para el juego ordinario de dos personas. En el $ $ se analizan 
los principios de suficiencia, de no desplazamiento y de invariación para 
construir las resoluciones uniformemente mejores en las subclases respecti- 
vas. Los párrafos 6—-8 están dedicados a la búsqueda de las reglas decisivas 
asintóticamente Óptimas. En el $ 6 se estudian las estimaciones asintótica- 
mente óptimas de los parámetros para la función arbitraria (y no sólo 
cuadrática) de pérdidas. En este caso se logra establecer los resultados seme- 
jantes a los del cap. 2 sobre la optimación asintótica de las estimaciones 
de verosimilitud máxima. En los $ 7 y 8 se examinan los criterios asintótica- 
mente óptimos para la función arbitraria de pérdidas, En el $ 7 se de- 
muestra el criterio asintóticamente bayesiano de la relacion de 
verosimilitud; en el $ 8 se establece el indicio Mímite de optimación de los 
criterios para verificar las hipótesis semejantes (generalización de los resul- 
tados de los $$ 14 y 15 del cap. 3 para el caso de una función arbitraria 
de pérdidas). 

Entre los Suplementos cabe destacar el Suplemento VII! donde se de- 
muestran dos teoremas fundamentales de la teoría de los juegos estadísticos 
y cuya lectura exige una preparación matemática más alta. 

El libro tiene muchas finalidades. Claro está que en su volumen comple- 
to, el mismo se asemeja más al programa mínimo para el curso de postgra- 
duados de la especialidad de "Estadística Matemática”, que a un libro de 
texto para los estudiantes. Pero en esta obra se prevé un sistema de medidas 
que facilitan su primera lectura y que la hacen accesible también para los 
estudiantes. Los párrafos de elevada dificultad o "más avanzados” en cuan- 
to a su contenido están anotados con un asterisco y conviene omitirlos 
al leerlos por primera vez, así como el texto escrito con letra gallarda. Ade- 
más, la exposición de los casos técnicamente más complicados, relaciona- 
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dos con el parámetro multidimensional, casi siempre se ofrece en apartados 
y párrafos independientes que también pueden ser omitidos. 

Los profesores de los centros de enseñanza superior que ya conocen, 
al menos parcialmente, la asignatura pueden escoger del libro un conjunto 
de párrafos (puede haber muchas variantes) a base de los cuales (no es 
obligatorio utilizarlos por completo) es posible componer un curso se- 
mestral de estadística matemática. He aquí una de las variantes: $8 1, 3 
y 5 del capítulo 1; $$ 2—4, 6—-12, 14, 16, (21, 23—-25), 31 y 32 del capítulo 
2; 88 1, 2, 4, 5, 12 (13, 16) del capítulo 3. Los párrafos entre paréntesis 
están dedicados a los procedimientos asintóticamente óptimos. Según el 
grado de preparación de los estudiantes, es necessario organizar la enseñan- 
za de dichos párrafos de la forma más accesible u omitirlos por completo. 

La lectura del libro supone el conocimiento del curso de la teoría de 
las probabilidades conforme al volumen del manual de A.A. Borovkov [11]. 
Las remisiones a este libro, a diferencia de otras, aparecen en los lugares 
que el lector, por lo visto, debe conocer, y sirven fundamentalmente para 
hacer memoria. 

La numeración de los párrafos en cada capítulo del libro es indepen- 
diente, así como la de los teoremas (lemas, ejemplos, etc.) en cada párrafo. 
A fin de hacer más cómoda la lectura se utilizan diversos sistemas para 
las referencias a los teoremas, lemas, ejemplos, fórmulas, etc., según su ale- 
jamiento del pasaje que se lee. Si se hace una referencia al teorema 1 o 
a la fórmula (12) del párrafo que se lee, la misma se escribirá del siguiente 
modo: teorema 1, fórmula (12). Si se trata del teorema 1 y la fórmula (12) 
de uno de los párrafos precedentes de este capítulo (por ejemplo, del $ 13), 
la referencia tendrá la forma siguiente: teorema 13.1, fórmula (13.12). Por 
último, si se hacen referencias a otro capítulo, aparecerá, además, el indica- 
dor del número de este último (primera cifra). Por ejemplo, el teorema 
2.13.1 denota el teorema 1 del $ 13 del capítulo 2, y la fórmula (2.13.12) 
denota la fórmula (12) del $ 13 del capítulo 2. Eso mismo corresponde a 
la designación de los párrafos. La referencia al $ 13 significa la remisión 
al $ 13 de este capítulo, y la referencia al $ 2.13 significa la remisión al 
$ 13 del capítulo 2. 

El signo < significa la terminación de la demostración. 

Para facilitar la lectura del libro, al final de éste se da la lista de las 
principales designaciones y se expone el índice alfabético de materias. 


A.A. Borovkov 
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Introducción 


En el presente libro se exponen los fundamentos de la parte de las matemá- 
ticas que se llama estadística matemática. Para abreviar, esta última suele 
denominarse simplemente estadística. Sin embargo, conviene tener presente 
que tal abreviación sólo es posible cuando existe una buena comprensión 
mutua, puesto que, de por sí, el término "estadística" corresponde general- 
mente a un concepto algo distinto. 

¿Qué representa la asignatura de estadística matemática? Se pueden ci- 
tar diversas "definiciones** descriptivas que reflejan, en mayor o menor gra- 
do, el contenido de esta parte de las matemáticas. Una de las definiciones 
más simples y aproximadas se basa en la comparación relacionada con el 
concepto de selección de muestras de la población madre, así como con 
el problema de distribución hipergeométrica que se examina, por regla ge- 
neral, al principio del curso de teoría de las probabilidades. Conociendo 
la composición de la población madre, allí se estudian las distribuciones 
para la composición de una muestra aleatoria. Es un problema directo típi- 
co de la teoría de las probabilidades. No obstante, frecuentemente también 
es preciso resolver problemas recíprocos cuando se conoce la composición 
de la muestra y, basándose en ella, es necesario determinar cómo era la 
población madre. Tales tipos de problemas recíprocos son los que en reali- 
dad constituyen, hablando metafóricamente, la asignatura de estadística 
matemática. 

Precisando algo esta comparación se puede decir lo siguiente: en la te- 
oría de las probabilidades, conociendo la naturaleza de cierto fenómeno, 
aclaramos cómo se comportarán (cómo están distribuidas) unas u otras 
características sujetas a estudio, que pueden ser observadas en los experi- 
mentos. En la estadística matemática sucede al revés: como material de 
partida sirven los datos experimentales (generalmente las observaciones de 
las variables aleatorias) y es necesario adoptar uno u otro punto de vista 
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o tomar una decisión determinada sobre la naturaleza del fenómeno sujeto 
a examen. Ahora bien, aquí se trata de uno de los aspectos más importantes 
de la actividad humana: el proceso de conocimiento. La tesis de que ”el 
criterio de la verdad es la práctica'* está directamente relacionada con la 
estadística matemática, puesto que precisamente esta ciencia estudia los 
métodos (en el marco de los modelos matemáticos exactos) que permiten 
responder a la pregunta de si corresponde o no la práctica, representada 
en forma de los resultados del experimento, a la referida noción hipotética 
acerca de la naturaleza del fenómeno. 

En este caso es necesario subrayar que, al igual que en la teoría de las 
probabilidades, nos interesarán no Jos experimentos que permiten sacar de- 
terminadas deducciones univocas sobre los fenómenos examinados en la 
naturaleza, sino los experimentos cuyos resultados son sucesos aleatorios, 
Con el desarrollo de la ciencia, los problemas de tal género desempefían 
un papel cada vez más importante, puesto que con el aumento de la preci- 
sión de los experimentos es cada vez más difícil evitar el "factor aleatorio" 
relacionado con diversos tipos de obstáculos y con nuestras limitadas posi- 
bilidades de medición y de cálculo. 

La estadística matemática forma parte de la teoría de las probabilidades 
en el sentido de que cada problema de la estadística matemática es, en esen- 
cia, un problema (a veces muy peculiar) de la teoría de las probabilidades. 
Pero la estadística matemática, como tal, también ocupa una posición inde- 
pendiente en la clasificación de las ciencias. La estadística matemática 
puede considerarse como la ciencia del llamado comportamiento inductivo 
del hombre (y no sólo del hombre) en condiciones cuando éste, a base de 
su propia experiencia, debe tomar decisiones con las mínimas pérdidas para 
él ”, 

La estadística matemática también se llama teoría de las decisiones esta- 
dísticas, puesto que la misma puede ser caracterizada como la ciencia de 
las soluciones óptimas (las dos palabras siguientes requieren aclaración) ba- 
sadas en los datos estadísticos (experimentales). Los planteamientos preci- 
sos de los problemas se darán posteriormente en el texto principal del libro. 
Aquí nos limitaremos a citar tres ejemplos de los problemas estadísticos 
más elementales y típicos. 

Ejemplo 1. Para muchos artículos su plazo de servicio es uno de los 
parámetros principales que caracteriza la calidad. No obstante, el plazo 
de servicio de un artículo (digamos, de una bombilla eléctrica) es, por regla 
general, aleatorio y no se puede determinar de antemano. La experiencia 
muestra que si el proceso de producción es, en cierto sentido, homogéneo, 
los plazos de servicio E1, E> ... de los respectivos artículos 1, 2 etc. pueden 


* Esta cuestión se examina más detalladamente en (46). 
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considerarse como magnitudes independientes igualmente distribuidas. El 
parámetro que nos interesa y que determina el plazo de servicio es natural 
identificarlo con el número 9 = M¿:. Uno de los problemas estándar con- 
siste en determinar a qué es igual 0. Para hallar este valor se toman n artícu- 
los fabricados y los mismos se someten a comprobación. Sean Xi, Xa2, ... 
..»» Xa los plazos de servicio de dichos artículos comprobados. Sabemos que 
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para 2 > co. Por eso es natural esperar que, al ser 7 suficientemente grande, 


7 
el número X = 155 resultará próximo a 0 y permitirá, en cierta medida, 
dw1 
responder a las cuestiones planteadas. Es evidente que estamos interesados 
en que el número requerido de observaciones n sea el menor posible, y 
que nuestra estimación del número 0 sea la más exacta posible (el aumento 
del parámetro 6, al igual que su reducción, conducirán a pérdidas mate- 
riales). 

Ejemplo 2. Un radar explora, en los instantes de tiempo t;, fa, ..., fm, 
una parte dada del espacio aéreo con el fin de localizar allí cierto objeto. 
Designemos por Xy, ..., X, lOs valores de las señales reflejadas que han sido 
recibidas por el radar. Si en la parte observada del espacio, el objeto que 
nos interesa no está presente, los valores de x, pueden considerarse como 
variables aleatorias independientes distribuidas al igual que cierta variable 
aleatoria £ cuya naturaleza está determinada por el carácter de las interfe- 
rencias diferentes. Pero si en el transcurso de todo el período de observa- 
ciones, el objeto se encontraba en el campo de visión, entonces x; con- 
tendrán, al igual que las interferencias, la señal ”útil“ a, y los valores 
de xy se distribuirán como £ + a. Ahora bien, si en el primer caso las obser- 
vaciones de x; tenían la función de distribución F(x), en el segundo caso 
su función de distribución tendrá la forma F(x — a). Por la muestra de 
Xl, ..., Xn es preciso decidir cuál de estos dos casos tiene lugar, o sea, si 
existe o no, en la parte observada del espacio, el objeto que nos interesa. 

En este problema será posible señalar, en cierto sentido, "la regla Óptima 
decisiva" que resolverá el problema planteado, con errores mínimos. No 
obstante, el problema enunciado puede ser complicado del modo siguiente. 
Primero falta el objeto y luego, a partir de la observación de número 0 
desconocido, el mismo aparece. Hay que determinar, lo más exactamente 
posible, el instante O de su aparición. Es el llamado ”problema de de- 
sarreglo"” que también tiene una serie completa de otras interpretaciones 
importantes para su aplicación. 
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Ejemplo 3. Cierto experimento se realiza al principio n, veces en condi- 
ciones A y luego mm veces en condiciones B. Designemos por Xi), ..., Xa, 
€ Yi, ..., Ya, los resultados de estos experimentos en condiciones A y B, 
respectivamente. Es necesario contestar a la pregunta: ¿se reflejará cl cam- 
bio de las condiciones del experimento en sus resultados? Con otras pa- 
labras, si designamos por Pa la distribución de x,, 1 <i< h,, y por Pa, 
la distribución y,, 1 < ¡ < »», entonces la cuestión consistirá en contestar 
a la pregunta si se cumplirá o no la relación P, = Psp. 

Por ejemplo, si hay que determinar si influye o no cierto preparado 
en.el desarrollo, digamos, de las plantas o los animales, entonces paralela- 
mente se hacen dos series de experimentos (con el preparado y sin éste) 
cuyos resultados es preciso saber compararlos. 

A menudo también surgen problemas más complejos cuando una cues- 
tión análoga se plantea para muchas series de observaciones realizadas en 
condiciones diferentes. Si los resultados de tales observaciones dependen 
de las condiciones, suele ser necesario comprobar el distinto carácter de 
esta dependencia (el llamado problema de regresión). 

El ejemplo 3 y los problemas más complejos anteriormente menciona- 
dos pertenecen a la clase de problemas estadísticos con dos muestras y más. 
Los mismos se examinan en el capítulo 4. 

Podríamos continuar la lista de ejemplos de problemas estadísticos tipi- 
cos, distintos en cuanto a su complejidad y a su esencia. No obstante, para 
ellos serán comunes las siguientes dos circunstancias: 

1. No tendríamos ninguna dificultad si conociéramos las distribuciones 
de los resultados de las observaciones que figuran en los problemas. 

2. En cada uno de estos problemas debemos, a base de los resultados 
de los experimentos, tomar cierta decisión en cuanto a la distribución de 
las observaciones disponibles (de aquí precisamente proviene la denomina- 
ción '"Teoría de las resoluciones estadísticas'* mencionada más arriba). 

En virtud de estas dos advertencias, para la exposición del material ulte- 
rior y, en particular, para la resolución de los problemos citados como 
ejemplos, adquiere importancia de principio el siguiente hecho. Según los 
resultados de las observaciones xy, ..., X» de cierta variable aleatoria ¿, es 
posible, con grandes valores de n, restablecer, tan exactamente como se 
quiera, la distribución desconocida P de dicha variable aleatoria. La afir- 
mación análoga también es válida para toda funcional 6 = 6(P) de esta 
distribución desconocida. 

En este hecho se basa la estadística matemática. A él y a planteamientos 
más precisos de los problemas está dedicado el capítulo 1. 


CAPÍTULO 1 


Muestra. Distribución empírica. 
Propiedades asintóticas de las estadísticas. 


En tos $$ 1—4 se introducen los conceptos de muestra y de distribución empírica y se exami- 
nan sus propiedades elementales, principalmente asintótuicas, que son la base de la estadística 
matemática. 

En el $ $ se exponen los llamados teoremas de contínuidad (sobre la convergencia de 
las distribuciones de las funciones de las sucesiones de variables aleatorias) que se utilizan 
en todo el libro. 

Los $5 6—-10 están dedicados a propiedades asintóticas más finas de las distribuciones 
empíricas y al estudio de las distribuciones límites para los tipos principales de estadísticas. 


$ 1. Concepto de muestra 


El conjunto de resultados de las observaciones sirve de material inicial para 
toda investigación estadística. En los casos elementales, estos resultados 
no son más que los valores experimentales (obtenidos en las pruebas) de 
cierta variable aleatoria E. Ya hemos señialado que en los problemas de esta- 
dística, la distribución P de esta variable aleatoria se desconoce por lo me- 
nos parcialmente. 

Supongamos que G es un experimento relacionado con la variable ale- 
atoria £. Formalmente, para este experimento debemos construir un modelo 
matemático del cual forme parte el espacio probabilístico ( 27 Bay; P), y 
asignarle, de modo conveniente, la función medible que precisamente se 
denomina variable aleatoria £ (véase [11]). El espacio ( 2 Ba, P), sin li- 
mitar la generalidad, puede considerarse muestral” (véase [11)), o sea, po- 
demos estimar que 2” es el espacio de los valores de ¿(x) = x. En este 
caso P se puede denominar distribución de E. 

Si £ es una variable aleatoria numérica, 2” es la recta numérica R; si 
E es un vector, 2”= R”, m > 1. En lo sucesivo tendremos en cuenta, por 
regla general, sólo estos dos casos, o sea, por 2” entenderemos R (caso uni- 
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dimensional) o bien R”, m > 1 (caso multidimensional). En calidad de 
Bo se elige con más frecuencia el o-álgebra de conjuntos de Borel ”. 

Si se sabe de antemano que P está concentrada en la parte 2 € By del 
espacio 27 por 2” puede resultar cómodo entender B, y por By, la 
contracción del o-álgebra M2 sobre B. 

Examinemos nr repeticiones independientes del experimento G (véase 
[11], p. 38) y designemos por X1, ..., X» el conjunto de observaciones obteni- 
das. El vector 


Xn(X1, ...y Xa) 


se llama muestra de volumen n de la población con distribución P. A veces 
se utilizan variantes más breves o más completas de este término: "muestra 
de la distribución P“ o "muestra simple de volumen n de la población 
madre con distribución P*. 

Simbólicamente, la relación '"X, es una muestra de la distribución P*' 
se escribirá, por medio del signo €, del modo siguiente: 


X. € P. (1) 


Tal forma de escritura también será utilizada para otras variables aleato- 
rias. Por ejemplo, la relación 


¿ep (2) 


significará que £ tiene la distribución P. Tal uso del símbolo €E se halla 
en correspondencia con (1), puesto que esta última ha sido determinada 
para cualquier nr, en particular, para n = 1, 

Si £ y y son dos variables aleatorias (dadas, hablando en general, en 
diferentes espacios) con iguales distribuciones, designaremos este hecho por 
73 5» así que si X, e Y, son dos muestras de igual volumen de la distribu- 


ción P, podemos escribir Xa E Y... 


En los segundos miembros de (1) y (2), en vez de la distribución P puede 
figurar, a veces, la función de distribución correspondiente a P. Así que 
si FG) = P(( — oo, x)), la escritura de 

Xn EF 


será idéntica a (1). 
El propio concepto de ”muestra de la población madre'* también se 


* Muchas partes del libro también serán válidas en una situación más general, cuando 
2" es un espacio métrico arbitrario con un s-álgebra Vy- de conjuntos de Borel, o sea, con 
un o-álgebra originada por los conjuntos abiertos de 2 
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encuentra al examinar modelos probabilísticos elementales relacionados 
con la extracción de bolas de una urna, en la definición clásica de la proba- 
bilidad (véase (11), $ 2 cap. 1). Cabe señalar que la definición de la muestra, 
introducida más arriba, se haila en plena correspondencia con este concep- 
to introducido anteriormente y, en esencia, coincide con él. Si x; (o la va- 
riable aleatoria E) pueden adoptar sólo s valores as, ..., Gs, y las 
probabilidades de estos valores son racionales, o sea, 


5 
N 
PE=9=2L, Neon, 
Jul 


entonces la muestra .X, puede representarse como el resultado del 
"muestreo con devolución” (en el sentido del cap. 1 (11]) de una urna con 
N bolas, entre las cuales N, bolas están marcadas con ar, N2 bolas con 
a, etc 

Como objeto matemático la muestra, X = X, (el índice n será con fre- 
cuencia omitido) no es sino la variable aleatoria (X1, ..., X=) con valores 
en el espacio ”r-dimensional* 2%" = Zx Yx ... x Zy con una distribu- 
ción que para B=B, Xx B¿X ... Xx Ba, B,€ By se determina por las 
igualdades 


P(X € B) = P(x¡ €B;, ..., Xn € Bn) = Tí P Qu € Bi) (3) 
==] 


Con otras palabras, la distribución P sobre 2” es el producto directo múl- 
tiplo de n de las distribuciones ”unidimensionales'* dadas. 

En lo que concierne a las designaciones de la distribución P y otras, 
nos sujetaremos a las siguientes acuerdos que ya hemos utilizado parcial- 
mente en (3) y que nunca provocarán equivocaciones. 

I. Utilizaremos el mismo símbolo (en particular, P) para las distribu- 
ciones en ([ 2% B2-) y para el producto directo de estas distribuciones en 
(2”, VB) (véase (3)), donde B¿- es el v-álgebra de los conjuntos de Borel 
en 2?. La diferencia será determinada tan sólo por el argumento de la 
función P. 

2. La probabilidad de llegada de la variable X, digamos, de VB. al con- 
junto B, a veces será cómodo designarla por P(B), y a veces por P(x € B). 
Esto es lo mismo, ya que 2” es el espacio muestral de X. 

3. Por último, utilizaremos el símbolo P para designar el concepto gene- 
ral de probabilidad (o sea, la probabilidad correspondiente a cualesquiera 
otras variables aleatorias sin concretizar el espacio probabilístico). 

En virtud de (3) podemos considerar la muestra X como un suceso ele- 
mental en el espacio probabilístico muestral (2”, MG4-P) (véase [11] capítu- 
lo 3, $ 2). Señalemos que en cuanto a la muestra X admitiremos una 
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interpretación doble de esta designación y del objeto: como variable aleato- 
ría y como vector de los datos numéricos reales obtenidos en los experimen- 
tos realmente realizados. Como muestra la experiencia, tal interpretación 
doble es bien tolerable y no suscita equivocaciones, aunque admite la exis- 
tencia simultánea de las notaciones que tienen la forma P(x, < f) = F(t) 
y la forma x, = 0,74, x2 = 0,83, etc. 

La muestra es el objeto inicial principal en los problemas de la estadísti- 
ca matemática. Sin embargo, en la práctica, sus clementos X1, X2, ... no 
siempre, ni mucho menos, son independientes. En nuestros análisis tampo- 
co excluiremos tal posibilidad. Además, para no hacer menciones adiciona- 
les, en caso de observaciones dependientes consideraremos que se trata de 
una muestra de volumen » = 1, mientras que las observaciones no son más 
que las coordenadas del vector x, (en efecto, la naturaleza del espacio Les 
arbitraria). 

En lo sucesivo tendremos que examinar a menudo las muestra X, de 
volumen » indefinidamente creciente. En tales casos es cómodo suponer 
que se da la muestra Xu = (x1, Xx2 -..) de volumen infinito, y X = X, no 
es sino la población de sus primeras rn coordenadas. Por muestra de volu- 
men infinito X. entenderemos el elemento del espacio probabilístico 
muestral (27”, Bá-, P), donde 2”” es el espacio de sucesiones (X:, xa, ...); 
o-álgebra MF ha sido generada por los conjuntos ¡o € Bi), B,€ By, 


N = 1, 2, ...; la distribución P posee la propiedad (3). Según el teorema 
de Kolmogórov ([11]), tal distribución siempre existe Por consiguiente, la 
suposición sobre la existencia de la muestra X. de volumen infinito de nin- 
gún modo limita la generalidad. 

La propia sucesión infinita (muestra infinita) Xo, en los estudios de 
carácter teórico-probabilístico puede interpretarse como un suceso elemen- 
tal (compárese con [11)). 

En los casos cuando necesitamos entender X, como un subvector Xu 
escribiremos 

Aa > [Xol», 
donde [-],. es el operador de proyección de 2”” en 2”, determinado de 
modo evidente. Con arreglo a lo dicho anteriormente, la notación 


Xo EP 


significará que X. es la muestra de volumen infinito de la distribución P. 

Si surge la necesidad de señalar especialmente el hecho de que no se 
trata de la distribución en ( 2”, BM3-), sino en (2”, BZ-) o en (L Da) 
para n < «o, también utilizaremos la designación P” (P*”). La conservación 
de los índices superiores ””oo*” y rn” en todo el texto llevaría a designaciones 
muy complejas. 
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$ 2. Distribución empírica (caso unidimensional) 


Sea dada la muestra X = (%1, ..., xn) € P, x1€2'"= R. Examinemos la 
recta real R con J-álgebra de los conjutos de Borel 1 en la distribución 
discreta Ps sobre (R, B) concentrada en los puntos Xi, ..., X», para la cual 
la probabilidad del valor x, se supone igual a 1/». En otros términos, para 
todo BE NB, según la definición, 


e5) = 255, 0 


donde »(B) es el número de elementos de la muestra X que se encuentran 
en el conjunto B. La distribución Pa se llama distribución empírica cons- 
truida según la muestra X (o correspondiente a la muestra X). Esta distribu- 
ción también puede representarse de la forma siguiente. Sea 1,(B) la 
distribución concentrada en el punto x: 


La (ea, 


A 
entonces, evidentemente, 4B) = 5] £.(B), 
1 


P505) = 15 118) 2) 


Está claro que para todo B de Borel, Px(B) como función de la muestra 
es una variable aleatoria. Ahora bien, se trata de una función aleatoria 
de los conjuntos, o bien de una distribución aleatoria. 

Supongamos ahora que Xu € P, X, = [XoJn y n > «o. Entonces ob- 
tendremos una sucesión de distribuciones empíricas P,. El hecho interesan- 
te consiste en que esta sucesión se aproxima indefinidamente a la 
distribución inicial P de la variable aleatoria sujeta a observación. Este 
hecho tiene importancia de principio para toda la exposición sucesiva, ya 
que el mismo muestra que la distribución desconocida P puede ser restable- 
cida tan exactamente como se quiera, basándose en una muestra de volu- 
men suficientemente grande. 


Teorema 1. Sea BED y Xx = [Xo]r € P. Entonces, para n — vo 
P,(B) > P(B). 


La convergencia con la probabilidad 1 aquí se sobreentiende con respec- 
to a la distribución P = P” en (R”, Y”, P). Necesitamos la suposición 
Xp = [Xw)n para que las variables aleatorias P:(B) se den en un solo espacio 
probabilístico. 
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Demostración. Examinemos la definición (2) y notemos que 1,,(B) son 
variables aleatorias independientes igualmente distribuidas, MI_(B) = 
= P(1,(B) = 1) = PQu € B) = P(B). Como P;(B) es la media aritmética 
de estas variables, nos queda hacer uso de la ley fuerte de los grandes núme- 
TOS. < 

El teorema 1 establece la convergencia de P;(B) y P(B) en cada punto” 
de B. No obstante, también tiene lugar una afirmación más fuerte de que 
tal convergencia es, en cierto sentido, uniforme respecto a B. 

Designemos por fy la población de los conjuntos B que son semiinterva- 
los de forma [a, b) con extremos finitos o infinitos y volvamos a suponer 
que X, = [Xo)]a. 


Teorema 2 (de Glivenko — Cantelli). 
sup [P-(8) —- P(B)| a O. 


A decir verdad, con los nombres de Glivenko y Cantelli está relacionada 
una afirmación algo diferente, que se refiere a un concepto importante de 
la función empírica de distribución. Por definición, ésta es la función de 
distribución correspondiente a Px. En otros términos, se llama función emn- 
pírica de distribución Fa(x) la función 


Fa(x) = Pr(( — 0, x)). 


La variable nFx(x) es igual al número de elementos de la muestra que son 
menores que x. En las condiciones reales, para construir F,(x) se utiliza 
a menudo el procedimiento siguiente. Los elementos de la muestra (x,, ..., 
Xn) se ordenan de manera creciente, o sea, de ella se forma la sucesión 


X1) £Xa) € -. € Xa) 
que se llama serie variacional. Entonces podemos suponer que 


Fa) = E para x€ (Xt), Xx + 19), 


donde kX recorre los valores de 0 a n, xq0) = —00, X(n+1) = %0. Evidentemen- 
te, Fa(x) es una función escalonada que tiene saltos de 1/n en los puntos 
x, si todos los valores de x, son diferentes. 

Sea F(x) = P(- «o, x) la función de la distribución £ (o x,, que es lo 
mismo) y Xa = [Xw].. El teorema de Glivenko — Cantelli consiste en lo 
siguiente: 

Teorema 2A. Sí n — co 


sup |Fn(x) — FG) > 0. 
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Más abajo omitiremos el índice » en las designaciones de FF, y escribire- 
mos simplemente FF”, 


Demostración del teorema 2A. Para abreviar supongamos primeramen- 
te que la función F es continua. Sea e > O un número dado, arbitrariamente 
pequeño, de tal modo que el número N = 1/e sea entero. Cómo F es conti- 
nua, podemos señalar los números zo = — 00, 71, ..., ZvN-1, Zwy = “o con los 
que 


Fo)=0 Ma)=e=L, ... Fla) = ke = Ses La 
«e. FíZn) = 1. 
Para zZ€[Ze, 2x4+1) son válidas las relaciones 


Fl - FO S Fa.+1) - Fu) = F(+1) - FiU+1) + €, (3) 
F(D - FO) > Flu) — Fl +1) = F (ze) — FUzx) — e. 


Designemos por Ax el conjunto de sucesos elementales w = X. en los 
cuales F”(zx) > Fa): Según el teorema 1, P(4x) = 1. Por consiguiente, 


para cada w€A = () Ax Se encontrará un valor de n(w) tal, que para 
koo 


todos los valores de 4 >n(w) se cumplirá 


Fa) — Flu) <e k=0, 1, ..., N. (4) 
Pero junto con (3), dichas desigualdades contribuyen a que 
sup |F(2) — (2) < 2e. (5) 


Así pues, esta relación tiene lugar para un valor arbitrario de e > 0, para 
todos los valores de w € A y para todos los valores bastante grandes de 
rn > n(w). Como P(4) = 1, el teorema para la función continua FF se consi- 
dera demostrado. 

Para la función arbitraria F(x), la demostración del teorema se realiza 
absolutamente igual. Se debe sólo hacer uso de la circunstancia siguiente: 
para toda F(x) existe un número finito de puntos -o= ZZ<... 
.. < Zy-1 < Zwy = 00 con los que 


F(Z +1) - FU +05 e, k=0,1,.., N-1 (6) 
(para evidenciar podemos considerar que el conjunto [2/3 contiene todos 


los puntos de los saltos de F que por sus valores superan, por ejemplo, 
e/2). Absolutamente igual que en (3) obtenemos que para zZ€ (Zx, +1), 


F(ZD) - FO) £Fla+) - Fary +0 


, 
FO) - FF) > Fa +0) - Fla +0) - e. 0) 
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A los conjuntos Ax, que se determinan como antes, les agregaremos 
los conjuntos Az, k 20, 1, ..., N en los que F*(zx + 0) > F(zx + 0). En- 
tonces, según cel teorema 1, P(4x) = P(A£ ) = 1, y en el conjunto A = 
= MN) AMA É, P(A) = 1, para valores de n > n(w) bastante grandes será vá- 

k 0 
lida (4), así como las desigualdades 


Fla + 0) - Flia + 0)<e,  k=0,1,.., N. 
Junto con (7) estas desigualdades conducen a (5). «< 
El teorema 2A es un caso particular del teorema 2, ya que los conjuntos 


(— 00, x) pertenecen a $; por otro lado, el teorema 2 se obtiene fácilmente 
en calidad de corolario del teorema 2A, puesto que para B = (a, b) 


¡Pa(B) — P(B)] < |Fa(b) — F(D)| + |Fa(a) — Fía)l, 
y, por consiguiente, 
sup IPA(B) —- PB) < sup [| F(D) — F(6)] + |Fa(a) — F(a)!] > 0. 


Observación 1. Es fácil notar que los razonamientos de ese mismo géne- 
ro nos permiten, en calidad de población de los conjuntos fy en el teorema 
2, tomar las poblaciones de los intervalos (a, b), de los segmentos [a, b] 
y de sus uniones finitas (de número no mayor que cierto N). 

Por otro lado, si en calidad de $ en el teorema 2 se toma una clase 
bastante rica de conjuntos, la afirmación del teorema deja de ser justa. 
Por ejemplo, si y contiene las uniones de cualquier número finito de inter- 

7] 


valos, entonces el conjunto B,= U l(x*-— 1/n?, xe + 1/n?) € $, 
ko! 
P,(B,) = 1 y para la distribución uniforme en (0, 1], P(Bn) < 2/n, así que 
sup [Px(B) — P(B)| > Px(B,) — P(B,) — 1. 
Concluyendo este párrafo señalaremos que la representación (2) permite 
obtener para P; teoremas sobre el comportamiento asintótico aún más exac- 


tos que los teoremas del tipo de Glivenko — Cantelli (estos resultados serán 
representados en los 39 4 y 6). Para ilustrar las posibilidades que aquí exis- 


ten recordemos que 210) en (2) es la suma de las variables aleatorias 
independientes e e eualmante distribuidas en el esquema de Bernoulli 
MI.(B) = P(1,(8) = 1) = P(B), 
ME(B) = P(B), DI. (3) = P(BX1 - P(B)). 
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Por eso, del teorema central del límite se deduce inmediatamente la afirma- 
ción siguiente: 


Teorema 3. PXB) es representable en la forma 
PAB) = P(8) + 28), (8) 
mn 


An 
donde la distribución IB) = a Y LAB) — P(B)) converge hacia la 
VA 
distribución normal con los parámetros (0, P(BX1 — P(B)). 
El estudio ulterior de P-(B) en este sentido se ofrece en el $ 6. Teoremas 
más exactos sobre la convergencia con probabilidad 1 se dan en el $ 4. 


$ 3. Características muestrales. Dos tipos de estadísticas 


1. Ejemplos de características muestrales. Por características muestrales 
suelen entenderse las diversas funcionales medibles de una distribución em- 
pírica o, dicho de otro modo, las funciones de una muestra que se supone 
que son medibles. Entre ellas, los momentos muestrales (o empíricos) son 
los más simples. Llámase momento muestral de orden k el valor de 


ax = aX) = [raro =- xt 
jul 
El momento central muestral de orden k es igual a 


A 


ile! 


Para los momentos muestrales a; y a3*, en la literatura se utilizan desig- 
naciones especiales, X y S?: 


x= 4 A S = ag No — xy. 


(1 Ju] 


En los problemas estadísticos se usan las características muestrales más 
diferentes. Por ejemplo, la mediana muestral y” es el valor medio de una 
serie variacional, o sea, el valor de $* = x(m) si n = 2m — 1 (impar) y 
E? = (Am) + Xm+1))/2 si n = 2m (par). Recordemos que por mediana y 
de la distribución continua P se entiende la solución de la ecuación 
F(S) = 1/2. 
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Un concepto más general es el de cuantila f y de orden p. Es el número 
para el cual F(+p) = p. Así que la mediana es una cuantila de orden 1/2. 
Si F tiene puntos de discontinuidad (componente discreta) entonces esta 
definición pierde su sentido. Por eso en un caso general utilizaremos la 
definición siguiente: 

Se denomina cuantila tp de orden p de la distribución P el número 


fp = sup [x: F(x) < p). 


Como función de p la cuantila ¿y no es más que la función F” '(p), inversa 
a F(x). 

Es evidente que, a diferencia de la anterior, esta definición de ft, (o 
de F”*(p)) tiene sentido para cualesquiera F(x). 

Es natural que a la par con las medianas muestrales podemos examinar 
las cuantilas muestrales t; de orden p que por definición son iguales al 
valor de x(1), donde / = [1p] + 1, x(«) son los términos de la serie va- 
riacional para la muestra X, k = 1, ..., 1. Para p = 1/2 utilizaremos la defi- 
nición +” = f3,/2 que hemos dado anteriormente (coincide tan sólo con la 
definición dada para n impares). 

2. Dos tipos de estadísticas. Supongamos que se da una función medible 
S de n argumentos. La característica muestral S(X) = S(x,, ..., x,) a menudo 
también se llama estadística. De lo dicho anteriormente se deduce que cual- 
quier estadística es una variable aleatoría. Su distribución se determina por 
completo mediante la distribución P(B) = P(x, € B) (recordemos que S(A) se 
puede considerar como una variable aleatoria dada en (2”, B¿-, P), donde 
P es el producto directo múltiplo de rn de las distribuciones unidimensionales 
de x,). 

Destaquemos aquí dos clases de características que se encontrarán fre- 
cuentemente a continuación. Se construirán con ayuda de los dos tipos si- 
guientes de funcionales G(F) de las funciones de distribución F: 

I. Funcionales que tienen la forma 


GF) = A(ÍgC0dFW). 
donde g es la función dada de Borel; A, la función continua en el punto 
qa ¡eb0dFoo, donde Fo es tal que X € Fo. 
I[. Funcionales G(F) continuas en el “*punto” Fo en la métrica uniforme: 
AFM) => G(Po), si sup [EMDx) — Fox)| — 0, los portadores ” de las distri- 


buciones de F(” pertenecen al portador de Fo. Aquí, como antes, Fo es la fun- 
ción para la cual X € Fo. 

» E portador Np de la distribución P con la función de distribución F es el conjunto 
para el cual P(Np) = 1. 


3—.8030 
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Vamos a definir las clases respectivas de estadísticas con ayuda de la 
igualdad 
SX) = G(Fa), 


donde F; es la función empírica de distribución. Entonces obtenemos: 
I. Clase de estadísticas de tipo 1, representables en la forma 


S(X) = h (facnaroo) =h € 2800) | 
fu] 


Esevidentequetodos los momentos muestrales tienen la forma delas estadísti- 
R 


cas aditivas z S st) y figuran entre las estadísticas del tipo 1. 
1 

11. Clase de estadísticas que llamaremos estadísticas de tipo 11 o bien esta- 
dísticas continuas en el punto Fo. 

Está claro que, por ejemplo, la mediana muestral será la estadística conti- 
nua en el punto F si existe la mediana f, F(y) = 1/2 y Fes continua y crece 
estrictamente en el punto f. 

La pertenencia de las funcionales a una de las clases mencionadas no es, 
desde luego, alternativa. La funcional G(F) puede no pertenecer a ninguna de 
estas clases o pertenecer a ambas clases a la vez. Por ejemplo, si G es una fun- 
cional de tipo 1, el portador de F' está concentrado en el segmento [a, 5) 
(F(a) = 0, F(b) = 1) y la función g tiene una variación limitada en [a, b], en- 
tonces G será simultáneamente una funcional de tipo II, ya que en este caso 
la funcional 


b 
[gGu)dF(x) = g(b) - [Fddg(x) 
es continua con respecto a Fen la métrica uniforme. Lo dicho quiere decir que 
las estadísticas de tipo 1 Xx y S? serán también de tipo 11 si Y E P y P está con- 
centrada en cl intervalo finito. 
Podemos completar losteoremas 2.1 y 2.2con la siguiente afirmación sobre 
la convergencia casi segura de las características muestrales. 


Yeorema 1. Sea, como antes, Xa = |Xuo|ln € F. En este caso, si 
S(A) = G(Fx) es la estadística de tipo 1 6 Il, para n — oo 


G(Fn) — > G(F). 
Aquí se supone, desde luego, que el valor de G(F) existe. 


Ahora bien, las muestras de gran volumen permiten estimar no sólo 
la propia distribución P, sino también las funcionales de esta distribución, 
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por lo menos aquellas que pertenecen a una de las clases citadas en el 
teorema. 


Demostración de la afirmación para ambas clases de estadísticas es casi 
evidente. Sea, por ejemplo, G(F) = h ((26)dFGo)). Entonces 
rn 


s= seo = feonarzco =D je 


es la suma de las variables aleatorias independientes, con la esperanza mate- 
mática 
M2(u) = [20dF(x). 


Por eso en consonancia con la ley fuerte de los grandes números 
S — — Me(x1). Sea ahora A = (Xu: S(A) — Meg(x1)). Entonces P(A) = 1 


y si Xo € A, entonces S(X) > Mg(x1), A(S(AD)) — AMg(x 1). Con otras pa- 
labras, en el conjunto A 


G(Fn) > G(P). 


La afirmación del teorema para las funcionales de segundo tipo es el 
corolario directo del teorema de Glivenko — Cantelli. «<a 

Del teorema se deduce que los momentos absolutos y centrales conver- 
gen casi seguramente para n > «o a los momentos correspondientes de la 
distribución P: 


ar = ax(X) => > xt - AS Mxí, 


are =a00=1 >) (0-2) - > MG — MxY 


lu] 


En particular, 


s 1-21 Yi e Da 


ja l 


Ahora bien, hemos establecido un hecho importante que tiene para no- 
sotros el valor de principio: con el aumento del volumen de la muestra, 
la distribución empírica y una amplia clase de funcionales de ésta se aproxi- 
man indefinidamente a los valores “teóricos'” correspondientes. 

Teoremas más exactos de la distribución de las características muestrales 
se exponen en los $$ 7 y 8. 


3* 
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5 4. Muestras multidimensionales 


1. Distribuciones empíricas. De un modo completamente análogo se cons- 
truyen las distribuciones empíricas y las características muestrales en el 
caso multidimensional cuando la variable aleatoria observada €, y junto 
con ella también los valores muestrales x), ..., X», Son vectores de dimensión 
M>1Xx=(Xx, , +». Xx, m). Aquí P(8) = P(¿€B) es la distribución 
en Z'a R”, y el espacio muestral aquí será ( 2”, B-, P), donde P es el 
producto directo múltiplo de » de las distribuciones P en (R”, By= BE). 
La designación YX € P conserva por completo su sentido. 

La distribución empírica P,, basada en la muestra X, se construye, al 
igual que antes, como una distribución discreta con masas de valores 1/n 
en los puntos Xy, ..., Xx, así que 


psc) = 42) 1 3 18), 
la 


donde »(B) es el número de puntos que entran en el conjunto B, y L,, 
la distribución concentrada en el punto x;. 

Es evidente que la afirmación del teorema 1 acerca de la convergencia 
de Px(B) — E P(B) aquí también será válida. 


La generalización del teorema de Glivenko — Cantelli para el caso mul- 
tidimensional está relacionada con la aparición de cuestiones cualitativa- 
mente nuevas. Una de ellas consiste en generalizar el concepto de intervalos 
para el caso multidimensional. Puede haber varias generalizaciones de tal 
género, por ejemplo, rectángulos, conjuntos convexos, etc. 

Una variante elemental de generalización del teorema de Glivenko — 
Cantelli es la siguiente. 

Sea y = ()» «..» Jm) el punto R”, y B,, un ángulo con vértice en el punto 
t=(M, ..., fm): 


B,= [yEeR": y.<tr k=1l,.., m). 


La función FX0) = PUB) 


se llama función empírica de distribución. 
Teorema 1. Sea X, »e [Xe]r, Xo E FE. Entonces 
sup |Fa(t) — F(0]| - 20 
sin>o00, 


2*, Variantes más generales del teorema de Glivenko — Cantelli. Ley 
de logaritmo repetido. Una de las generalizaciones posibles de los teoremas 
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del tipo de Glivenko — Cantelli consiste en lo siguiente. Sea € la clase 
de todos los conjuntos convexos sobre R”., 


Teorema 2. Supongamos que Xan = [Xo)]n, Xo E P y que la distribución 
P es absolutamente continua respecto a la medida de Lebesgue en R"”. En- 
tonces 


sup [P:(8) — P(B)] - 20. (1) 
De CA 


Otras generalizaciones posibles del teorema 1 pueden ser obtenidas con 
ayuda de las afirmaciones del Suplemento 1. 


Observación 1. La exigencia de que la distribución P sea absolutamente 
continua con respecto a la medida de Lebesgue es muy importante en el 
teorema 2. Esto lo demuestra el ejemplo siguiente. Sea P la distribución 
uniforme en una circunferencia unitaria (o sea, en el límite de un círculo) 
en R?. Construyamos el poligono cerrado Bx con los vértices en los puntos 
X1, ...» Xp Situados en dicha circunferencia. Es un conjunto convexo. Sin 
embargo, P(Br) = 0, Px(Bx) = 1, es incorrecta y, por consiguiente, también 
lo es la relación (1), donde € es la clase de los conjuntos convexos. 

Las afirmaciones de los teoremas del tipo de Glivenko — Cantelli 
pueden ser precisadas considerablemente, por lo menos, para las clases ele- 
mentales de conjuntos. Por ejemplo, para las funciones empíricas de distri- 
buciones Fi(t) (véase el teorema 1) se puede señalar la siguiente sucesión 
determinada: b, > 0 cuando n —> co, para la cual, con la probabilidad 1 
(para casi todos los “puntos” X.), 


lím sup bi * sup |Fa(2) — F(N| = 1. 


Resulta que el orden de pequeñez de b, equivale al de Ear , 
Teorema 3 (ley del logaritmo repetido). Si F(t) es continua, entonces 


P Um sup | o 5 SUP ¡Fa(t) —- F(O| = 1) = 1. 


El teorema 3 está estrechamente relacionado con la aproximación nor- 
mal para Fx(1) de la forma (2.8) que, evidentemente, en el caso multidimen- 
sional también tiene lugar. 

La demostración de los teoremas 1 y 2 se da en el Suplemento 1, y 
la demostración del teorema 3 véase en (52]. 

3. Características muestrales. En el caso multidimensional, al igual que 
en el unidimensional, éstas son distintas funciones medibles de la muestra. 
Las más elementales de ellas son los momentos muestrales. Por ejemplo, 
los momentos muestrales de primer orden son iguales a 
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F] 
ay = a xX) = z > Xx J]=l,.. mM. 


ku! 


Los momentos de segundo orden (ordinarios y centrales) 


ay = a.yX) =. XeiXrjs  Lbj=l, .. mM, 
k.1 


a 
ay e Sy = E y, Qu, — 4,0 414), 
kal 


etc. Al igual que en el caso unidimensional, con ayuda de la ley fuerte de 
los grandes números es fácil cerciorarse de que estas características conver- 
gen, con probabilidad 1, hacia los momentos “teóricos” correspondientes. 
En particular, Sy 0: Mx. — Mx1.0)Qt1 y — Mx). Es fácil convencerse (es- 


to se analiza más detalladamente en el párrafo siguiente) de que los coefi- 
cientes de correlación muestrales 


Sy MG. — Mx, ay — Mx) 
ltu=— - > = aa——_————————=— 
v > a Q(X1.1X1,J) DD y 


también poseen esta misma propiedad. 
Para obtener teoremas más exactos de la distribución de las característi- 
cas muestrales nos serán útiles los llamados teoremas de continuidad. 


$ 5. Teoremas de continuidad 


En lo sucesivo necesitaremos ciertos conceptos auxiliares que utilizaremos 
a menudo y que podrían ser llamados teoremas de continuidad. Para facili- 
tar Su estudio, a ellos les dedicamos un párrafo especial. Anteriormente 
ya hemos utilizado un teorema de este tipo — el teorema 3.1. Bl primer 
teorema de continuidad será muy parecido a éste. 


Teorema 1 (primer teorema de continuidad). Sea X = |Xu]n € P. En 
este caso, si Sa = Sn(X) es una sucesión de estadísticas escalares o vecto- 
riales, tales que Sn E So, y Hs) es una función continua casi por doquier 


con respecto a la distribución de la variable aleatoria So (o sea, H(s) es 
continua en cada punto del conjunto B  P(S) € B) = 1), entonces 
HSA) — H(So). 

Si Sn converge hacia Sy según la probabilidad (Sa ES So), entonces para 
las dernás condiciones semejantes, HS) pS H(So). 
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La demostración del teorema es casi evidente. Como las probabilidades 
de los sucesos A = (Xu: Sal Xo) > Sol X=)] y Cu [Xo: So(Xw) EB] son 
iguales a 1, entonces, en virtud de la igualdad P(ANC) = P(4) + P(C) — 
- P(AUC) la probabilidad del suceso AMC (en el cual 
H(Sr(X0)) > H(So(Xo))) también es igual a 1. 

Para simplificar la demostración de la convergencia en probabilidad, 
supongamos adicionalmente que Sy = const (sólo necesitaremos este caso). 
Para un valor dado de e > 0 hay un valor de ¿ > 0 tal, que el suceso 
An = (Xu: |Sn — Sol < 6) contribuye a que |H(S») — H(So)| < e y además, 
P(Ax) > 1 — e para todos los valores de n bastante grandes. Por lo tanto, 
para tales n tenemos 1 — € < P(An) < P(14(8,) - H(Sp)| < 8). <a 

Antes de enunciar los teoremas siguientes, introduzcamas ciertas desig- 
naciones que serán cómodas posteriormente. 

Supongamos que se ha dado una sucesión de vectores aleatorios 
mm = (92, ..., 14) (no obligatoriamente en el mismo espacio probabilísti- 
co). Si las distribuciones y, convergen débilmente (cuando nr — co) hacia 
la distribución de cierta variable aleatoria y, entonces designaremos este 
hecho con el símbolo 

Ya > 9- (1) 


Aquí utilizamos, para las variables aleatorias, el signo => de convergencia 
débil de las distribuciones. Al igual que antes, utilizaremos también este 
signo para las propias distribuciones, así que la relación (1) es equivalente 
a que 


0,-0Q 


donde Q, y Q son las distribuciones de na y y respectivamente. Tal convenio 
es cómodo y no conduce a equivocaciones. 
Está claro que de y, E y O de 9. > y se deduce 7, > y (compárese 


con (11], p. 133). 

Ahora bien, si se trata de la relación (correspondiente a una convergen- 
cia débil) entre objetos de igual naturaleza (entre variables aleatorias o entre 
distribuciones), usaremos el símbolo =. También sería conveniente tener 
el símbolo para expresar el hecho de que “las distribuciones de yn convergen 
débilmente hacia Q cuando n — eo”. Escribiremos esta relación de la forma 


m8 Q (2) 
así que el símbolo € expresa el mismo hecho que =>, pero une objetos 
de distinta naturaleza, al igual que el símbolo E respecto a yn € Q (a la 
izquierda en (2) se encuentran las variables aleatorias, y a la derecha, la 
distribución). 

Sean 7, y y vectores aleatorios de R?. 


40 CAP 1. MUESTRA. DISTRIBUCIÓN EMPÍRICA 


Teorema 2 (segundo teorema de continuidad). Si y, = y y H((), ! ER” es 
una función continua de R* en R*, entonces H(na) > H(n). 

Señalemos que, en realidad, este teorema también es cierto en una forma 
más general ”. Sinn > y y H(t) es continua en los puntos del. conjunto A E8', 
P(y € A) = 1, entonces H(yn) > H(r). 


Demostración del teorema 2. Sean Q, y Q las distribuciones y, y ny, respecti- 
vamente. La convergencia débil de Q, — Q significa, por definición, que para 
toda función continua y limitada f: R* — R se cumple 


[S0)Q(ay ) — [SW dy) 
o bien, que es lo mismo, 


M/(n) > M/Tn). G) 


También debemos obtener una relación análoga para las distribuciones 
H(na) y H(7). O sea, debemos establecer que para toda función continua limi- 
tadag: R* — ResválidaMg(H(9n)) > Mg£(H(7)). Pero esto sededucecon evi- 
dencia de (3), ya que la superposición ¿ = g - H: R*—R es continua y 
limitada. < 

Teorema 3 (tercer teorema de continuidad). Sean, > y € R, H(t), 1 € Runa 
función derivable en el punto a. Entonces, si bx — Des una sucesión numérica, 


(Ha + ban) — H(a)/bn = YH (a). (4) 
Demostración. Examinemos la función 


ey a | (Hla + x) —- HlaYY/x, x>70, 
h(x) DEN x= O, 
la cual será continua en el punto x = 0. Como bann => 0, en virtud del primer 
teorema de continuidad, A(ba7n) > A(0) = H'“(a). Utilizando el segundo teo- 
rema de continuidad, obtenemos 

(Ha + baqn) — HladYY/ba = h(brgndra > H (dd <a 


Ahora citaremos dos generalizaciones sucesivas del teorema 3 para el caso 
multidimensional, las cuales nos serán útiles. 

Teorema 3A. Supongamos que qa e (95, .... 7) => 97 e (90, ..., 7%) y 
que H(1) es función escalar del vector t <= (tr, ..., t,4) con la que existe la deriva- 


da H'(() = a EIA 7 en el punto a. Entonces, cuando ba — 0, 
8 


*» Véase [5). 
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Ela + dem) - HA EOS AAN 
Jul 


Aquí el índice T corresponde a la transposición. 
SimA'(ay” = Ocon probabilidad 1 (porejemplo, H'(a) = 0), y la matriz 


, 39?H(t) 
H* (0 de las derivadas TEN 


existe en el punto a, entonces 


Lia ] 9H 
(Ha + bano) — HaY/bh mL pH" (a =2 2 O 


Sea ahora H(t) una función vectorial. Entonces, evidentemente, la distri- 
bución límite para cada componente MH) será descrita por el teorema 3A, y con 
respecto a la distribución conjunta será valida. 

Teorema 3B. Supongamos que yn > y ER” y que H(t) €R* es una fun- 
ción vectorial con la que las derivadas H, j = 1, ..., k satisfacen las condi- 
ciones del teorema 3A. Entonces 

(Hí(a + Baryn) — H(a)/b, =» n(H'(a)y”. 


Si n(H'(a))” = 0 con probabilidad 1, y las matrices Hf, j = 1, ..., k existen 
en el punto a, entonces 


(Ha + dann) — Hdi q (HR, .... "Hay 


Las demostraciones de estas afirmaciones, de hecho no se distinguen 
en nada de la demostración del teorema 3, y por eso las presentamos al 
lector en calidad de ejercicios. Además, proponemos convencerse de que 
el símbolo » en (4)—(6) se puede sustituir por =,7 0 por pe , si se cumple 


Ya S n O nn FS y, respectivamente. 


El contenido de los teoremas 1—3 puede resumirse del modo siguiente, 
Supongamos que — — significa uno de los símbolos — —, yá =>. Enton- 
ces, si H es continua, de 7, — — y resulta Hna) -— — Hi(n). 

Si H es derivable en el punto a, y, — — 7, entonces para ba — 0 

(Hí(a + bann) — H(aY)/ba -— — H'"(a)n. (7) 

Observación 1. No es difícil notar que si a depende de n de modo que 


a ua a, = do + o(1) y las derivadas en los teoremas 3, 3A y 3B son conti- 
nuas, la relación (7) se conservará en la forma 


(H(0, + Bnran) -— Han) / ba - — H'(a0)m. (8) 
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Para la demostración es suficiente ver que el primer miembro (8) es 
representable en forma de H'(ar)qa, donde an = 04. + (1 — ÓMar + 
+ Dann) — —> o, 16] < 1, y utilizar el segundo teorema de continuidad. 

Esa misma observación es válida para los análogos multidimensionales 
de la referida afirmación en los teoremas 3A, 3B. 

Los teoremas enunciados conciernen a la convergencia casi segura y a 
la convergencia de las distribuciones. El cuarto teorema de continuidad se 
refiere a la convergencia de las integrales. 


Teorema 4 (teorema de continuidad para los momentos). Supongamos 
que (nn) es una sucesión de variables aleatorias numéricas y que yn > y 
cuando n > oo, En este caso, si se cumple al menos una de las condiciones 
siguientes: 


1) lim sup S P(lma] > x)dx > 0 para N= «o, 
=>) 


2) P(Ina] > x) < eo, | plxddx < co, 


3) Minnl!*% < c < wo para cierto a > 0, 
entonces lím Mn, = Mn. 
Re 0 


Nótese que la condición 1 significa la convergencia uniforme en n hacia 
el cero Pana > x)dx cuando N > oo. 


Demostración. De la desigualdad generalizada de Chébishev, 


Minn!' ls 


P((ml > x) € pra 


se deduce que la condición 3 provoca la condición 2 y ésta, a su vez, la 
condición 1. 

Supongamos que se ha cumplido la condición 1. Para simplificar los 
razonamientos, admitamos primeramente que 7» > O. Entonces, integrando 
por partes, obtenemos 


Mna = == [dB >x) = [Po 2 dx. 
0 


De esta representación, así como de la convergencia de P(n, > x) => 
+ P(7 > x) para casi todos los x, y de la convergencia, uniforme en », 


de la integral f P(n. > x)dx, se deduce la legitimidad del paso límite bajo 
0 
el signo de integral, en virtud del cual 
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lím Mr = lím | P(7, > xx = | P(7 > xdx = Mn. 
q sal! 0 


En el caso general conviene utilizar la representación na = 9 — ya, don- 
de ya = máx (2., 0), ns = máx (—7n, 0). < 

Señalemos que la condición 1 también puede considerarse como condi- 
ción de la integrabilidad uniforme de 7», de la cual se deduce inmediata- 
mente la convergencia requerida de My, — My (véase, por ejemplo, (11), 
[60)). 


5 6* Función empírica de distribución como proceso aleatorio. 
Convergencia hacia el puente brownolano 


En este párrafo supondremos que se conoce el concepto de proceso aleato- 
rio (digamos, en el volumen de [11)) y, en particular, las definiciones y pro- 
piedades elementales de los procesos wieneriano y poissoniano. 

1. Distribución del proceso nF5(1). Nos limitaremos a examinar el caso 
unidimensional 2"= R. Supongamos, como antes, que Fx(1) = Ps((— oo, 
t)) es la función empírica de distribución correspondiente a la muestra 
X "S X5 € P, 

La función Fa(f) es una función de dos variables: t y X, o bien que 
es lo mismo, una función aleatoria de f o un proceso aleatorio. 

Hallemos las distribuciones de dimensión finita de este proceso. Supon- 
gamos fy < f¿< .., < fi'|son Mm puntos arbitrarios del eje numérico. Ponga- 
MOS tg = —%, fm+1 = vo y designemos por 


AR = E(Y +1) — £(4) 
los incrementos de la función g(f) en los semiintervalos A; = [£), ty, 1), 
j=0, 1, ..., m. Examinemos el incremento Ayx, del proceso 
Evidentemente, esto es el número de elementos de la muestra que se en- 
cuentran'en Ay. La probabilidad de que un elemento de la muestra (diga- 
mos, X:) se halle en A, es igual a p, = P(Ay). Como el hecho de que los 
elementos tomen un valor perteneciente a Ay, j = 0, 1, ..., m, constituye 


m + Í sucesos incompatibles, tenemos aquí, sín duda, una distribución po- 
linomial (véase (11), p. 111) para el vector (AoTa, ..., Amr») con probabilida- 


des Po, .... Pm, >, pj=1. Como es sabido, 
a Juo 


P(Ao%n = ko, ..., AmTn = Km) = AO pe... pia, (1) 


donde >, k|=n. 
J=0 
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Sea ahora n(u), u € [0, 1), el proceso poissoniano continuo a la izquierda 
(véase [11], p. 304) con parámetro A, 0) = 0. Los incrementos de este pro- 
ceso son independientes, 


Por) = de) = e A. 


Si la función de distribución F(f) = P((— oo, £)) es continua, podemos 
realizar la sustitución continua del tiempo, poniendo u= F(1), 
—- 0 <f< o, y determinar de este modo el proceso r(1) = mF(f)) sobre 
todo el eje. Examinemos los incrementos de este proceso 


Ayr = HUY +0) — (ty) = MF) 0) — mE) 
sobre los intervalos Ay. Entonces 


ud) k AR k 

== ? - z 

P(dox = ko, ..., Amr = Km) = TI e 2 0091 pr 
J=0 y Jud y 


y la probabilidad condicional de este mismo proceso, a condición de que 
mM 
r(o0) = Y) Ayr = n, será igual a 


Ju0 
m 
y Ajr = n) = 


P (20 = Ko, ..., ÁmT a Km 


J=0 
zo P(Aor . Ko, ...p Amr = Km) Ea, 
P(r(00) = n) o 


A rm 
= Pláor = ko, 2 Amr kim) A at ]] LE. 09) 


Hemos obtenido para cualquier A > 0 la misma expresión que en el se- 
gundo miembro de (1). Así pues, hemos demostrado la afirmación si- 


guiente. 


Teorema 1. Si F(£) es continua, la distribución del proceso nFa(t) coinci- 
de con la distribución condicional del proceso *(t) = y(F(t)) a condición 
de que x(so0) = n(n(1) s hn). 

El teorema muestra que las desviaciones r(Fr(f) — F(£) están distri- 
buidas al igual que n(F(£)) — nF(t) a condición de que n(1) = n y el proble- 
ma con precisión hasta la sustitución del tiempo u = F(t) se reduce al 
estudio de las desviaciones n(u) — nu para el proceso poissoniano condi- 
cional (n(1) = n) sobre el segmento [O, 1] o bien, que es lo mismo, al estudio 
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de las desviaciones n(Fx(t) — £), donde Fa(£) corresponde a la distribución 
uniforme sobre (0, 1]. 

Puede ser útil también otra representación para el proceso nFa(t). Sean 
fi, Y2, ... los puntos de saltos del proceso poissoniano y(f), así que 
n(Tx + 0) = k. Como es sabido ([11]), las diferencias Ex = fx — fx-1 
(to = 0), K = 1, 2, ..., son independientes y están distribuidas exponen- 
cialmente 

Pltr>x=e >”, 


fr tiene P-distribución con densidad (véase también el $ 2.2) 


K 
e Myxk-1 


A 

Y (X) Tu) 

Para simplificar las enunciaciones, supongamos que F(í) a t, f € [0, 1], 
lo=0, fm+1 = 1, así que y(1) = xí1). 


Teorema 2. La distribución del proceso nFaít) coincide, para cualquier 
v > 0, con la distribución condicional del proceso x(tv), O < t < 1, a con- 
dición de que Yn+1 = . 

Con otras palabras, la afirmación del teorema 1 seguirá válida si la con- 
dición (1) = n se sustituye por una condición mucho más estrecha 
(1) = n, (1 + 0) = n + 1 (suponemos que las trayectorias de *(£) son 
continuas a la izquierda). 

Como la probabilidad de esta nueva condición es igual a 0, puede ser 
que convenga añadir (véanse los $5 4 y 8 en [11] sobre las esperanzas mate- 
máticas, así como el $ 2.9) que por distribución condicional entendemos 
las probabilidades 


P(A; En+1 € du) 
Plta+1€du) ” 


donde A = (Aorí(tvu) = Ko, .., Amr(tv) = Km), Ayx(tv) = r(t) + 1v) — 
= mt, uy). 

Demostración. Representemos el suceso [($»+1 € du) en la forma del 
producto de dos sucesos 


B= [| rív) =2n) y C > (lu + du) — r(v) = 1). 


Los sucesos B y AB no dependen de C, ya que los sucesos B y AB, por 
un lado, y el suceso C, por otro, se refieren a los incrementos del proceso 
x sobre los intervalos disjuntos del tiempo. Por eso 


P(A/En41 = 6) = AO = A =PMA/(Y=m. 0) 


P(A/In+ri1=u.€). => 
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Lo mismo que en (2) nos cercioramos de que esta expresión no depende 
de v (ni tampoco de A) y coincide con (1). «< 

Corolario 1. La distribución del proceso nFa(t) coincide con la distribu- 
ción TltLn+ 1), 0 Sá 4 < l. 

Esto se deduce del hecho de que para B = [(Aor(ttr,1) = Ko, ... 
«0» AmtltP a+ 1) = Km] tememos, en virtud de (3), 


PB) = | P(A/tfr+1 = v)P(f(-,+1 € du) = nm! 
J 


Del corolario 1 se deduce: 

Corolario 2. La distribución conjunta de los elementos de la serie va- 
riacional X(1), ..., Xan) de la muestra X de la distribución uniforme coincide 
con la distribución conjunta 


$1 Cn 
EN o Ear j 


o bien, que es lo mismo, la distribución conjunta de las diferencias xq), 
Xa) — Xu» ---» Mm) — Mm-1)> 1 — Xp) coincide con la distribución conjunta 


t En +1 


Ena 00 Em 


Para concluir este apartado determinaremos los momentos de segundo 
orden para los incrementos del proceso n(Fa(f) — F(1)). Para nosotros será 
más cómodo examinar el proceso 

w"(1) = Vn(FR(0) — F(0)). 


Es evidente que MAyw" = 0, M(A¡w") = AyF(1 — AyF). Para calcular los 
momentos mixtos notemos que (ix 7) 


Míápw"-439") =L Y) MALLA) — P(A) x 
kim] 


x (5(0) Pla) =2 2, 1MILADIAS) — PANP(A)). 
Kk, lui 
Puesto que 


(ANP(A) para k x / 


MILADIASO = ho bara kl 


Entonces M(A¡w"-Ayw") = —P(A)P(A)) = — AyF-AyF. 
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Ahora bien, los incrementos del proceso w” están correlacionados nega- 
tivamente. 

2. Comportamiento límite del proceso w”(£). Supongamos que F((£) es 
continua. Del punto 1 entonces se deduce que podemos limitarnos a exami- 
nar la distribución F(f) = r uniforme sobre [0, 1], 0<f< !. 

Designemos por w(f) el proceso wieneriano estándar, o sea, el proceso 
con incrementos independientes para el cual w(*) está distribuido normal- 
mente con parámetros (0, £). El proceso 


wo(1) = w(1) — 1w(1) 


se llama puente browniano (puesto que en él se hallan asegurados ambos 
extremos: w*(0) = w*(1) = 0). La distribución de este proceso coincide con 
la distribución condicional del proceso w(f) a condición de que w(1) = O 
(mejor dicho, es necesario adoptar la condición |w(1)| < e y pasar al límite 
para £ > 0). 

Resulta que las distribuciones de dimensión finita de los procesos 


w"(1) = Vn(Ex(t) — F(t), t€j0, *, 


convergen, cuando n —> co, hacia las distribuciones correspondientes del 
puente browniano w(1). 

Este hecho permite aproximar los procesos w”(£), llamados, a veces, 
procesos empíricos, con ayuda del proceso w*(£). Precisamente por eso po- 
demos imaginarnos que, con grandes valores de n, tiene lugar la igualdad 
aproximada 


MERO — FO) = wo) (4) 


que describe la distribución de las desviaciones de Fn(t) respecto a F(() 
(recordemos que aquí hemos considerado que F(£) = r, f€ [0, 1]. 

No obstante, necesitaremos la afirmación del tipo (4) en una forma más 
fuerte. Examinemos, por ejemplo, la estadística U = vn sup (En) — 


= F(()). Dicha afirmación hace natural la suposición de que con grandes 

valores de n la variable aleatoria U está distribuida aproximadamente al 

igual que Sup eco. Pero de nuestra afirmación esto no se deduce de 
1 


ningún modo, puesto que U no puede ser representada como función de 
los valores de w"(+) = Yn(F;(t) — F(£)) en cualquier número finito de pun- 
tos. Por eso es mucho más fuerte la siguiente afirmación. 

Designemos por Día, b) el espacio de las funciones sobre el segmento 
[a, b], que son continuas a la izquierda (en el punto a a la derecha) y tienen 
sólo un número finito de saltos, y designemos por C(a, b) el espacio de 
todas las funciones continuas sobre [a, b]. Es evidente que la trayectoria 
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w" (1) pertenece a D(O, 1). Además, es sabido (véase [11], capítulo 13) que 
las trayectorias w“(1) pertenecen a C(0, 1) con probabilidad 1. Para simpliti- 
car la exposición podemos suponer que todas las trayectorias w(() y, por 
consiguiente, w*(() se encuentran en C(O, 1) (véase [11]). Como C(0, 1) C 
C D(O0, 1), entonces (D(0, 1), op) — donde ap es el o-álgebra de los subcon- 
juntos de D(0, 1), engendrada por conjuntos cilíndricos * -- puede ser con- 
siderado como el espacio muestral *” de los procesos w” y w. 


Teorema 3 (teorema funcional del límite para los procesos empíricos). 
Sea f la funcional que está definida sobre el espacio D(0, 1) y que posee 
las propiedades siguientes: 

D fG(wr) y w*) son magnitudes aleatorias (o sea, f(y) realiza la aplica- 
ción medible (D(0, 1), 0p) en (R, DB); 

2) FW) es una funcional que es continua en los "puntos” del espacio 
C(0, 1) con respecto a la métrica uniforme, o sea, FU) > f(y) para n — a 
si y€C(0, 1) y 201, Y) = sup yutt) — y(t)] — O. 


Si estas condiciones han sido cumplidas, entonces 
Kw") => f(w"). 


Si la funcional f es continua en la métrica uniforme en todo punto y € 
ED(O, 1), la condición 1) se cumple automáticamente. 

Es evidente que la funcional U, examinada anteriormente, satisface las 
condiciones del teorema, así que para n —> oo, 


U = sup w“(£). 
051<1 


Como en esta relación, la distribución del segundo miembro se puede hallar 
en forma explícita (véase, por ejemplo, [5], (58]): 


o o p=12? 
P (sup w (0 > 2) =e*, 


obtenemos, de este modo, la expresión aproximada para la distribución de 
U. 

El uso del teorema 3 para el cálculo de la distribución límite de otras 
estadísticas se examina en los párrafos siguientes. 

La demostración del teorema 3 se da en el Suplemento II. 


O sea, por los coujuntos que tienen la forma (y(f1) € Bi, ..., Y(tm) € Bm), donde 
B, ..., Ba son los conjuntos de Borel. 

* (Do, 0) es el espacio muestral del proceso (1) si en él está dada la distribución del 
conjunto E de tal modo que las trayectorias E(f) se encuentran en Dv. 
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$ 7. Distribución límite para las estadísticas de primer tipo 


Recordemos que llamamos estadísticas de primer tipo las estadísticas 
SAX) = G(F5), donde la funcional G tiene la forma G(f) = 


a 8(x) dF(x)). Con otras palabras, 


SAA) = Rh € y E) : 


dl=1 


Ya hemos visto (teorema 3.1) que si X € Fo y h es continua en el punto 
a = [ 2(x) dFoA(x), entonces S, -— — h(a). 


Teorema 1. Si X E Fo, h es derivable en el punto a, ¡ ex) dFo(x) < oo, 
entonces 


Vn(S(X) — h(a)) > h'(a)E, 


donde £ € Po. 0 = | (eo) — a dE. €... aquí significa la distribu- 
ción normal con parámetros (0, a”). 


Demostración. Representemos la estadística S,(X) en la forma 


A 


donde, según el teorema central del límite (véase [11)), 


m= 3 2 (86%) — 4) € Poo 


fm 
at = M(201) - ay = | (200 — ay dr). 


Nos queda hacer uso del tercer teorema de continuidad para hb, = 
s 1/vn. a 


A veces es más cómodo examinar las funcionales de primer tipo en la 
forma G(F) = h (f gQ0ad(F — Fo)). Evidentemente, todo lo dicho también 


es válido para éstas, con la única diferencia de que a ha de considerarse 
igual a O. 


Citemos el análogo del teorema 1 para el caso en que la función £ = 
= (81, ..., 8s) es el vector (o sea G(F) = h(f gi(xddFG, .... | 2:00dF()). 

Teorema 1A. Supongamos que Sn(X ) = G(£x), A(1) es derivable en el 
4—803 
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punto a = | 20)dFo(x), y que la matriz de los segundos momentos 
0? = loy = M(g0u1) - a) (2(x1) — a) es finita. Entonces 


; T_ - oh(a) 
(S4X) — Ha) S EA" = 2 2 e, 0 


donde E _ (En, a £,) € Los 
Si E(A'(ayy = 0 con probabilidad 1, y la matriz de segundas derivadas 


h* (1) = Lar h(1) | 


existe en el punto a, entonces 
0110t; 


1 pe Tr_ 
e a 
fu 
Para la demostración del teorema lA conviene usar el teorema de conti- 
nuidad 5.3A y el teorema central del límite multidimensional, en virtud 
R 


del cual F Y > (g(x) — a) = £ (véase el suplemento V). 
dé de] 

Completamente análogo es el teorema de la distribución límite Sa(A5) 
cuando la función kh, y junto con ella también la estadística S,(A), son 
vectores. El lector reproducirá sin dificultad su enunciación y demostración 
con ayuda del teorema 5.3B. 

Ejemplo 1. Supongamos que X € Po y Po es tal que Mx; = a > 0, 
Dx; = d?< oo, ¿Qué representa en estas condiciones la distribución límite 


R 
de la estadística S = 1/x ( = - S> x) ? Aquí, las condiciones del teore- 
im] 
ma 1 están evidentemente cumplidas para Ax(1) = 1/t, g(x) = x, con la parti- 
cularidad de que a= a, 0? = d?, h(a) = 1/a, h'(a) = —l/a? En virtud 
del teorema 1, 


(S — l/aJín => —E/0, EE Log, 
así que 


(S => 1/a)vn é Po 4/0 


Ejemplo 2. Hallemos la distribución límite de Ja estadística 


2.) mx, 


si Mx1 = a, Dx, = d? y MxÍ < vo. (Ya sabemos que en virtud del primer 
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teorema de continuidad, $? — > d?). No es difícil hallar directamente la 
os 


distribución límite necesaria, utilizando las representaciones 


*-1) (0m-a)-A-0 
¿ml 


] - 
$? - din = — xi — o)? - 42 -— Vn(X — ay. 
( Na > — 2 [Gu — 0)? — de] — Vn(k — a) 
No obstante, haremos uso del teorema 1A. Según los datos de este teorema 
debemos suponer que 


G(F) = [Qe — Y dF(x) — ( í x dF(x) — a, 


así que gr(x) = (x— 0), 2a(x) =x, h(() = ti — (A — ay?. Puesto que en 
el punto a = (d?, a) 
óh(a) _ 1 dh(a) _ 


3 E TDi 


entonces 


(8 - din E Ebo y = Mu — a) - dl, 


Ejemplo 3. Estadística x?. Concluyendo este párrafo examinemos un 
ejemplo de estadística que puede pertenecer tanto a la del tipo 1 como a 
la del tipo IT. 

Examinemos las estadísticas construidas con ayuda de la funcional que 
tiene la forma 


G(F) = h(| g dF). (2) 


donde g es la función de variación limitada sobre el segmento [a, b) tal 
que F(a) = 0, F(b) = 1 (a y b pueden ser infinitos). Como 2 dF = 
= g(b) — | F dg, la funcional G(F7) será continua en la métrica uniforme 
si sólo es continua la función A. Es fácil comprender que la clase destacada 
de características no es sino la intersección de las clases de estadísticas de 
los tipos 1 y Jl. 

Lo mismo es válido en el caso en que g es una función de forma vecto- 
rial con componentes £; que tienen una variación limitada. 

Examinemos ahora la partición del eje real (espacio .7”) en los intervalos 
disjuntos A,, ..., Ar, y designemos »; = nP,(A,), p¡ = Po(A,) (Po es la distri- 
bución correspondiente a Fo, así que X E Py). Se llama estadística ““ji- 
49 
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cuadrado” xi e y(X) la estadística 
F 
2 
2 z y (y; — npo) 
x (4) e TT 


Evidentemente que esto es una estadística de tipo 1], ya que ella corres- 
ponde, con una exactitud de hasta el factor n, a la funcional 


á E m2 
G(F) = G(P) = A PSA 
¿al 


Para representar x*(X) como estadística de tipo 1, examinemos la fun- 
cional que tiene la forma (2) 


G(F) = h(fgd(F — Fo)) 


P 
con la función A(u) = )), uj y la función vectorial g con coordenadas 
1 


fu 
1/Vp, para x€ Ay, 
20) lo Pj P y 
para xt4),. 
. HO) Za PH _385 (5. 
Como la función Áh es derivable, du 0, da; 261; (6y es el 


símbolo de Kronecker), entonces, poniendo S.(X) = G(F»), obtenemos 


E 2 
(Xx) =2 D, 6 - p,) +] = AX). 
0 


Para X € Po, en virtud de la segunda parte del teorema lA, 
MX) > pr gd, (3) 


donde ¿ = (E), ..., E,) es el vector normalmente distribuido ( límite para 


Y — MP; », = np, ' 
——_ e ——= ) ) con la media nula y la matriz o? = lo] de 
v NP VMDr ) d | ul 


segundos momentos 
oy = Méky = Mígx0) — pg (a) — Vpy) 


(de la definición de gy se deduce que Mex) = Vp;). Puesto que 
g/)ex) = 0 para ¡ys j y P(gí0a1) = 1/p) = py, Plekxs) = 0) = 1 -— p,, 
entonces 

oy = By — VDip). 
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Aclaremos ahora qué representa la distribución del segundo miembro 
en (3) (o sea, la distribución limite x*(X)). 

Examinemos la transformación ortogonal en R* con la matriz C y exa- 
minemos el vector 


n= ¿C. 


El vector y, al igual que £, será distribuido normalmente, En efecto, la nor- 
malidad de la magnitud £ quiere decir que su función característica es igual 
a (véase [11)) 
SES Jrowr 
Me'""=e , 
donde 0? = Joy] es la matriz de segundos momentos. Pero f.c. para y 


- HOCTOC(T 
Mel" = MEVer” 07? 


tiene la misma forma y, por consiguiente, y es un vector normal, pero con 
la matriz de segundos momentos d* = C7a?C = kdd, así que 


dy = Main; = 2y CliOIKkCkj = 2 Cul Óix — Y pipr)Cxy = 
= 2 CuCy — (> ara) (z cera). (4) 


Escojamos ahora la matriz C de modo que su primera columna tenga 
las coordenadas ci, = Vp, (esto corresponde a la fijación del primer vector 
del sistema transformado de las coordenadas y es posible, ya que 

r 


Y ch = » pi => 1). En este caso es evidente que el segundo sumando 
m1 


en (4), en virtud de la ortogonalidad de C, es igual a 1 sólo para ¡== 1, 
y es igual a O en el caso contrario. Esto significa que d,1 = Mní = 0, 
dy = Mnim, = Ó6y para / > 2, y por consiguiente, y, = O con una probabili- 
dad igual a 1, y las magnitudes 2, ..., 7, son independientes y están distri- 
buidas normalmente con los parámetros (0, 1). A base de la ortogonalidad 
de C obtenemos 


D8= DuÍ= o. 
j=1 jul , Jul (5) 
AA) Dn) 


En esta igualdad, la distribución del segundo miembro se llama distribu- 
ción x? (“ji-cuadrado”) con r — 1 grados de libertad (véase [11] y también 
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el $ 2.2). En la exposición ulterior encontraremos muchas veces esta distri- 
bución. 

Una demostración más de (5) será obtenida en el párrafo siguiente, Ade- 
más, (5) será demostrado en el $ 3.16 con ayuda de consideraciones más 
generales. 

Algunos otros ejemplos de uso de los teoremas 1 y 1A se dan en los 
capítulos posteriores. 


$ 8. Distribución límite para las estadísticas de segundo tipo 


Aquí nos limitaremos a examinar el caso 2'= R. La funcional G(F») sujeta 
a estudio será una magnitud aleatoria si ella realiza la aplicación medible 
(D(-— oo, 20), 0p) en (R, B). Sin embargo, en lo sucesivo nos será más cómo- 
do estudiar las funcionales que no están definidas sobre D(-— oo, eo) sino 
sobre D(0, 1) (compárense con el $5 6). 

Para hacer esto apliquemos D(-— oo, co) en D(O, 1). Supongamos Que 
la función de distribución Fo, correspondiente a la muestra, es continua 
y monótona, así que está definida la función inversa Fy *(1) (igual a la 
cuantila de orden f de Fo). Nos será suficiente examinar los valores de G(F) 
para las funciones F, cuyo portador está presente en el portador de Fp. 
A cada F pongámosle en correspondencia la función 


E) = FES UN) e FF5 50). 
Es evidente que NF < [0, 1], donde NF es el portador de F así que £ € 


€ D(O, 1) es precisamente la función de distribución. La transformación 
inversa de D(O0, 1) en D(—oo, 00) se lleva a cabo por la igualdad 


Flu) = E(Fo(u)) = ÉFo(u). 


Pongamos ahora en correspondencia con la funcional G la funcional G 
definida sobre las funciones de distribución Ff € D(O, 1) (Ny < (O, 1) por 
la igualdad 


G(H), = G(AIFo). (1) 
La inversión de esta fórmula tiene la forma 
G(F) = G(FFS !). 


Estas igualdades reducen el estudio de las funcionales G(F) al estudio de 
las funcionales G(4f) definidas en las funciones de distribución de D(O, 1). 
En virtud de estas igualdades, 


G(F5) = GUFF5 *) 2 G(D;). (2) 
a = FiFo ? (3) 


$ 3. DISTRIBUCIÓN DE ESTADÍSTICAS DE SEGUNDO TIPO s5 


no es otra cosa sino la función empirica de distribución de la muestra desde 
la distribución uniforme sobre [0, 1]. En efecto, según el teorema 6.1, el 
proceso nD;x(t) = nFi(Fo (1) tiene la misma distribución que el proceso 
poissoniano r(Fo(Fy '(1)) = (1), 1 € [0, 1] (con un parámetro A > 0) a 
condición de que r(1) = ». En virtud de ese mismo teorema 6.1, esto de- 
muestra la afirmación requerida. 

Lo dicho significa que el estudio de G(F5) se reduce a la investigación 
de la funcional G de la distribución empírica que corresponde a la distribu- 
ción uniforme sobre [0, 1). 

Ejemplo 1. Sea G(F) = f£, la cuantila de orden p de la función de distri- 
bución F Entonces G(H) = G(HFo) será la cuantila de orden p de la fun- 
ción de distribución AFo O bien, que es lo mismo (supongamos, para 
simplificar, que MH es continua), la solución de la ecuación H(Fx(1)) = p, 
igual a Fo (A”7'(p)). 

Esto significa que la cuantila muestral ¿¿ = G(F;) = G(D;) (véanse (2) 
y (3)) de la muestra X € Fo no es otra cosa sino el valor de la función 
Fs * de la cuantila muestral y; = (D5)” p) de orden p de la muestra Y 
de la distribución uniforme. 

Por lo tanto, si logramos hallar la distribución límite de 7», entonces 
la distribución límite de f¿ podrá ser obtenida con ayuda de los teoremas 
de continuidad. 

Ejemplo 2. Examinemos la funcional G(F) = sup |F(“) — Fo(t)|. En 
este caso a 


G(H) = G(HFo) = _ sup HPA) — Folt)| = sup [H(u) — ul, 
así que 


G(Fn) = G(Ds) - sup [Dx(u) — ul, 


y en correspondencia con el contenido del $ 6, la distribución de la estadís- 
tica G(Fa) no dependerá de Fo si Fo es continua. En este sentido la estadísti- 


ca G(F1) puede llamarse invariante respecto a la distribución uniforme de 
la muestra. 


Ejemplo 3. La funcional 
G(F) = í |[F(1) — FADIFAFAo) 
también engendra la estadística G(Fx), invariante respecto a Fo, ya que 
1 


) 
GUN) = | 1H(u) — ulfdu, — G(E5) = | [Di(u) — ul “du. 
0 


0 
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Ejemplo 4. Examinemos la funcional 


— (AF - AY 
G(P) a >, ( 7 A ; 
Put 


donde AyF son los incrementos de la función F sobre los intervalos A, = 
= [f,, (y+ 1) que forman la partición de una recta real. Evidentemente que 
nG(Fs) no es otra cosa sino la estadística x? examinada en el ejemplo 7.3 
en calidad de estadística de tipo I. 


Tenemos , 
E m (A;HFo — AFoY 
GH => G(AF6o) == E , 
Jn 
donde 


A/HFo = HEXS + 0) — AHCF0AU)) = 6H, 


6, son los incrementos de A sobre los intervalos Ú, = [7;, 7,4 1), 7, = Fo(Uy). 
Así, pues, designando con esa misma letra 5, la longitud del intervalo ó,, 
obtenemos 


O(FI) = GUFo) = G(DS) = Y (6D) - 87/8,. 
Jm1 


Aquí el segundo miembro es la estadística n”*'x? para la muestra Y de 
la distribución uniforme con partición (6,). Esto significa, en particular, 
que en el ejemplo 3 del párrafo precedente pudiéramos limitarnos a exami- 
nar la distribución uniforme Fo, aunque la estadística x? por sí misma no 
es invariante con respecto a Fo. 

Ahora bien, podemos, sin limitar la generalidad, suponer que la funcio- 
nal G(F) se da sobre D(O, 1) y Fo(t) = t, ¿€ [O, 1]. El paso a las funcionales 
“iniciales” se realiza mediante las fórmulas (1) y (2) y será ilustrado con 
otros ejemplos. 

Con el fin de encontrar la distribución límite para las funcionales de 
segundo tipo G(F,) es necesario, al igual que en el apartado precedente, 
imponer a las funcionales ciertas condiciones de suavidad. 

Pongamos para abreviar, llxll = Sup xD]. 


Definición 1. La funcional G(F) se llama continuamente derivable de 
orden k en el punto Fo si existe la funcional g(Fo, v) que para cualquier 
función v € C(O0, 1) y cualquier sucesión va € D(O, 1) es tal que llva — vll — O 
cuando % — 0 satisface las relaciones 


G(Fo + hva) — G(Fo) 
==%Yhgqá2 XA 
h 


e(Fo, vn) > £(Fo, y). 


5% ¿(Po, v), (4) 


$ 8 DISTRIBUCIÓN DE ESTADÍSTICAS DE SEGUNDO TIPO Ss 


La última relación significa, evidentemente, la continuidad en la métrica 
uniforme en los puntos de C(0, 1!) de la funcional g(Fo, uv) que se puede 
llamar derivada de orden k de G en la dirección de v. 

Observación 1. Recordemos que aqui, en cualquier parte, por Fy se pue- 
de entender la distribución uniforme sobre [0, 1). 

Mostremos que en el ejemplo 1, la funcional G(F) = F” *(p) de la dis- 
tribución F' sobre [0, 1) es continuamente derivable en el “punto” Fa(í) = £, 
¿€ [0, 1). 

En efecto, por definición, 


G(Fo + hva) = máx 1t: Fo(1) + hus(() < p). 


Como esta funcional es continua en la métrica uniforme en el punto Fo, 
podemos poner G(Fo + hun) = p + 6, donde á =x 5h) > 0 para h—0. 
Luego, de la relación llvÍ — vull > 0, donde vecC(0, 1) se deduce 
Jua(p + 8) — va(p)| = r(k) > 0 cuando hÁ—0. Como Fo(p + 6) = p + 6, 
para 1 = G(Fo + pva) = p + $ Obtenemos 


FAC) + hurt) =p +5 + hvilp +5) =p +5 + híva(p) + T7r(h)) < p, 
donde |r| < 1. La igualdad inversa análoga se puede escribir valiéndose del 


hecho de que Fo(t + 0) + Auvatt + 0) > p. De aquí se deduce que ó = 
= —A(va(p) + rir(hAd), |ri] < 1, así que 
G(Fo + hu) — G(F 
(Fo 2 (Fo) =5> up). 


Ahora bien, la derivada g(Fo, v) en este ejemplo es igual a 
g(Fo, v) = —v(p). a (5) 


Es evidente que en el ejemplo 2, la funcional (G(F)= 
= sup |[F(t) — Fo(t)| es también continuamente derivable en toda di- 


rección, ya que G(Fo) = O, 


O AN 


8(Fo, vu) = ñ sup 


1 
En el ejemplo 3, la funcional G(F) = O — FANdR(t) para 
0 
cualquier función de variación limitada R(f) es continuamente derivable 
(de orden X) en toda dirección, ya que 


1 
£(Fo, v) = 2 = | toi ario. 


0 
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La afirmación análoga es válida respecto al ejemplo 4 sobre la funcional 


2 


la cual será continuamente derivable de segundo orden, puesto que para ella 


E Ho + AT (Ayu) 
g(Po, v) A e 


=l 

En los ejemplos 2 — 4, la generalización de las funcionales son las fun- 
cionales de forma G(F) = G¡(F — Fo), donde la funcional G, es homogé- 
nea en el sentido de que G,(Av) = h*G(u). Es evidente que todas estas 
funcionales serán derivables. 

Enunciemos ahora el teorema principal de las funcionales de segundo 
tipo. Sea, como antes, Fo(t) = t, t€ [0, 1]. 

Teorema 1. Si X € Po y la funcional G(F) es derivable (de orden k) 
en sentido de la definición 1, entonces 


[G(Ex) — G(Fo)in*”? = g(Fo, w"), 
donde w” es el puente browniano. 


Demostración. Es sabido (véase, por ejemplo, [5)) que los compactos 
en el espacio métrico de las funciones continuas C(O, 1) con métrica unifor- 
me, se describen del modo siguiente. A cada función (A) > O, p(4) — 0 
para A—0, y al número N > 0 le corresponde el compacto 


K = K(p, N) = [y€C(0, 1): war) € e(A), 1y(0)] < N], 
donde wa(y) es el módulo de continuidad y: 
ws) = sup Ly(0) = y(u)]. 


Designemos por K;, el conjunto 
K, = (y€ D(0, 1): wa) € e(6) para todos A > h: |y(0)] < N). 


Los conjuntos Ka podrían llamarse ““precompactos” (este término se utiliza 
en el análisis funcional en otro sentido) engendrados por el compacto K. 


Está claro que Kx, C K», para hi < he, (Y Kim=K y que K, C(K)"%, 
nal 
donde (KY* es el e-entorno del conjunto K. 
Mostremos ahora que para 5 > O dado existe el compacto K (y, por 
lo tanto, la familia de los precompactos K, que le corresponden) y la suce- 
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sión An >0 para n — co tales que 
lm sup P(w”¿Ka,) < 3. (6) 


En efecto, según el teorema 6.3, para toda funcional f que sea continua 
en la métrica uniforme se cumple f(w”) = f(w"), donde w”"(t) = 
= VI(FA(1) - 1), 0<1<1. Como waly) es tal funcional, entonces 
walw”) =>» wa(w?*). Pero wa(w?) E 0 para A — 0, ya que las trayectorias 


de w* son casi seguramente continuas. Por consiguiente, para e y $ dados, 
siendo A suficientemente pequeño, 


Plwa(w") > €) € 6. 


Considerando, sin limitar la generalidad, el número e€ como punto de conti- 
nuidad de la distribución wa(w”*), obtenemos 


lím sup P(wa(w”) > £) < 5. 


Sea ahora e; J0 cierta sucesión, y los números Ax) 0 son tales que 
lím sup P(wa.(w”) > ex) < 6/24 *!, 


Formemos la función g(A) = Ex para A€ (Ax+1, Ax). Es evidente que 
p(A4) — 0 para A > 0, y podemos examinar los precompactos K, cons- 
truidos según la función q. Entonces para todo k < oo, 


k +1 
lím sup P(w"” ¿Ka,) < lím sup D) Plwa(w”) > ey) < 
Ao rn. jm1 


k+1 
< pr lím sup P(wa,(w”) > €) < 8/2 
] Ao 


(para k = co esta desigualdad puede ser injusta). La relación obtenida 
quiere decir que para cada 6 existe la sucesión hi, —> 0 cuando n > oo es 
tal que se cumple (6). Examinemos ahora la magnitud 


[G(F») — G(Fo)jn*” = g(Fo, w") + Ha(w”), 


donde Ha(x) = [G(Fo + x/vVn) - G(FoYNn*” — g(Fo, x). Puesto que, en 
virtud del teorema 6.3 y la definición 1, g(Fo, w”) => g(Fo, w”), basta con 
que nos cercioremos de que 


Hn(w”) pS O. (7) 


Nótese que para todo compacto KC C(0, 1) y para toda sucesión 
An > 0 cuando n — oo, 
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sup |Hn(x)| — 0. 
x€D(0, 1) 
xe(Ky- 
Admitiendo lo contrario, llegaremos a la existencia de una sucesión 
Xn € D(O, 1) tal que lx» — x] > 0, x€ C(O, 1), Mm sup |An(xn)] > 0, lo cual 
contradice la derivabilidad de G. 
A base de (6) y (8) obtenemos 
PAAN WD > e) < PUE (wW5)]>e€ w"EK»,) + P(w ¿K».), 
lím sup P(|A4,(w")] > e) < 6. 


Como $ es arbitrario, la relación (7) y junto con ella la afirmación del teore- 
ma quedan demostradas. < 

Volvamos a examinar los ejemplos. 

Sea np la cuantila muestral de orden p para la muestra Y de la distribu- 
ción uniforme sobre [0, 1]. Entonces, de (5) y del teorema 1 obtenemos que 


(19 — PA = wep) = we). 


Hemos determinado, además, que en el caso general, cuando Fo es una 
función continua arbitraria de distribución, es válida la igualdad 


tp = Fo (mp). 


Si ahora utilizamos el tercer teorema de continuidad, obtendremos: 
Corolario 1. Si X, € Fo, Fo es continuamente derivable en el punto fp, 
Ktp) = FS(Ip) > 0, entonces 


(55 — Ep) vn > w/o). 


Para la demostración sólo es necesario señalar que las condiciones del 
corolario 1 significan la derivabilidad continua de F5”* en el punto p, 


ij des 1 E 1 
ECN = Y EN * 


Como Mw*(p) =0, Dw*p) = M(w(p) — pw(D) = M(wwMM - p) + 
+ p(w(1) — wWwWY = p( — pY + pY(1 — p) = p( — p), la afirmación 
del corolario 1 también puede escribirse en la forma 
($p — ¿p)Vn € Yo, ot» r = p(l — PUFHEp). <Q 
En el ejemplo 2 derivamos la funcional G(F) = Su VEO — PIO! y, 
por lo tanto, según el teorema 1, 


G(Fvn e Sup, (we(0). 


$ 8. DISTRIBUCIÓN DE ESTADÍSTICAS DE SEGUNDO TIPO 61 


Hemos hallado la distribución y = sup |w*(£)| en forma explícita ([58]): 
061I¿l 


P() > 2) = K(2) = 1 +2 D> (nee 
-]1 


La función K(z) se llama función de Kolmogdrov. 
Hemos visto que en el caso general, cuando Fy es una función continua 
arbitraria de distribución, la distribución de la estadística 


D(x) = sup |Fa(t) — Fo(t)| 


queda igual que para el caso Fo(r) = £, 1 € [O0, 1]. De este modo hemos ob- 
tenido: 

Corolario 2 (teorema de Kolmogórov). Si X € Fo, Fo es continua, en- 
tonces 


vía D(X) € K. 


Esto significa que la desviación máxima D(X) de la función Fa(£) de 
Fo(t) tiene el orden 1/vYn y puede representarse, aproximadamente, en la 
forma de D(X) = y/vn. 

En el ejemplo 3 hemos visto que otra estadística (la cual a menudo 
se designa por w?) 

es $ (FO) — FADY AFA) 
también es invariante respecto a Fo. Del teorema 1 se deduce: 
Corolario 3. Si X € Fo, Fo es continua, entonces 
1 
mo f [w"(ofdr. 
0 


2 
La distribución | [w*(1)]*dt también fue hallada en forma explícita y, 


junto con la distribución K(z), está tabulada. Con arreglo al ejemplo 4, 
el teorema 1 nos da: 
Corolario 4. Si X € Fo, Fo es continua, entonces 


xo A (8w*yY/8), 
donde 65,, j = 1, 2, ..., r, forman la partición del segmento [0, 1) y están 


definidos en el ejemplo 4. 
Si suponemos que £ = (Er, .... Er), Ey = 6/w*/V/3, utilizando el hecho 
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de que 5¡w* = 5,/w — w(1)8,, donde w es el proceso wieneriano estándar, 
obtenemos 


y 
x ná pz t, ¿6 dor: 
= 1 
Aquí a? = Joy] es la misma matriz que en el ejemplo 7.3, puesto que 
Pr 
Sw" = bw a (z 81 W Ó; = >, Axj0s w, 
E kw] 


ax, = 6x, — 6, M(6x WX6/¡w) = ÓxiÓx 
(8x: es el símbolo de Kronecker), 


ay = _M(01w"X8w") = 1 


ari0xjOx = 
VE, Vi 


1 
= 61181 — 8161) = 58u — V816;. 
Ta (6yó1 — 6161) = 5y 10, 


F 
Repitiendo los razonamientos del ejemplo 7.3 obtenemos que pz tj 
a] 


tiene una distribución x? con r — 1 grados de libertad. 

Concluyendo este párrafo debemos señalar que no todas las estadísticas 
que representen interés pueden ser clasificadas como estadísticas de los ti- 
pos 1, ó II. Basta con examinar, por ejemplo, la estadística S(X) = 

n- 


s ), XxiXi+3 O las estadísticas S relacionadas con las funcionales Gn(F), 
bm 


donde las funcionales G, dependen “considerablemente” de n (no sólo por 
la muestra), tales como, digamos, el término máximo de la serie variacional 
S(X) = X(m = $1- un y Otras. 


$ 9”. Objeciones acerca de las estadísticas no paramétricas 


Hay una propiedad respecto a la cual la estadística tf; en el ejemplo 8.1 
se distingue considerablemente de las citadas en los ejemplos 8.2 — 8.4, 
Esta propiedad consiste en que la distribución Mmite de las estadísticas en 
los ejemplos 8.2 — 8,4 (véanse los corolarios 8.2 — 8.4) de ningún modo 
está relacionada con la función de distribución Fo, lo cual no se puede 
decir de la estadística £; (compárese con el corolario 8.1). 

Definición 1. La estadística S(X) se llama asintóticamente no para- 
métrica si S(X) € Q cuando rn > oo, y Q no depende de la distribución 
de X, o sea, no depende de Fo si X € Fo. 
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Cabe señalar que la propia función S en este caso puede depender de 
Fo. El término “no paramétrica” no es por sí mismo del todo acertado, 
no obstante, adquirió gran divulgación (está justificado en el caso en que 
Fo pertenece a cierta familia paramétrica — entonces la distribución Q no 
depende del parámetro y desde este punto de vista no es paramétrica). A 
veces se utiliza otro término: “libre de la distribución”. 

En los 55 6—8 hemos visto que las estadísticas vn U(X), va DIXO), 
nulAO, x(X) son asintóticamente no paramétricas. 

También debemos indicar que el teorema 6.1 da la posibilidad de intro- 
ducir un concepto más estrecho. En dicho teorema se ha establecido que 
nF5(() está igual distribuida que y(Fo(1)), donde n(u) es el proceso poisso- 
niano convencional con un parámetro arbitrario A > 0 a condición de que 
n(1) = n (véase el $ 6), o sea, dicho proceso no depende de Fy. Ahora bien, 
si la estadística S está construida como la funcional G(F5) (o G(F% — Fo), 
que es invariante respecto a la sustitución del “tiempo” f en el argumento, 
la distribución de S no dependerá de Fo. Por ejemplo, 


D = sup |FE(0) — Fat] =2 sup In(Fo(0) — AFAO] = 


5 339 000 a 0 


Lo dicho hace posible: 

Definición 2. La estadística S(X) se llama no paramétrica si su distribu- 
ción no depende de Fo(X € Fo). 

Las relaciones (1) significan que la estadística D no es paramétrica. 

También hemos señalado (véase el corolario 8.3) que la estadística u?, 
al igual que D, no depende de Fo y, por lo tanto, tampoco es paramétrica. 

La estadística x?, siendo asintóticamente no paramétrica no poseerá la 
propiedad de carácter no paramétrico. De esto es fácil convencerse directa- 
mente en un ejemplo, poniendo r = 2, n= 1. 

Obtenemos otros ejemplos de las estadísticas no paramétricas si exami.- 
namos los valores de Fx(7p), donde tp es la cuantila de orden p, así que 
nFa(5p) > n(p) (véase el $ 6). El número r, de elementos de la muestra X, 


menores que xy — la llamada estadística de rango — también será una 
estadística no paramétrica. 

Los conceptos de estadísticas no paramétrica y asintóticamente no para- 
métrica son muy útiles en la teoría de la verificación de las hipótesis estadís- 
ticas (véase el capítulo 3), ya que la distribución de estas estadísticas, la 
cual es necesaria para la construcción de los criterios, es suficiente calcu- 
larla sólo una vez (por jemplo, para la distribución uniforme de Fo) y será 
útil para cualesquiera otras distribuciones de la muestra. 
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$ 10%, Distribuciones empíricas suavizadas. Densidades empíricas 


En el $ 2 a cada muestra X la hemos puesto cn correspondencia con la 
distribución P, que hemos llamado empírica y la cual no es más que la 
suma de n distribuciones atómicas concentradas en los puntos Xy, ..., Xn- 
Esta distribución posee varias propiedades magníficas descritas en los 
párrafos precedentes. Sin embargo, la definición de P,, utilizada por no- 
sotros, no es la única posible ni mucho menos, y en varios casos no es 
la más natural. También existen otros puntos de vista en cuanto a la defini- 
ción de P», según los cuales las propiedades útiles (estudiadas anteriormen- 
te) de las distribuciones empíricas no sólo se conservan por completo, sino 
que son completadas por varias nuevas. 

Aquí nos limitaremos a examinar la cuestión relacionada con la natura- 
leza de las distribuciones que situamos en los puntos x;. En la definición 
de P, que hemos utilizado, se trataba de las distribuciones degeneradas 
1,,(B), así que 


P5(5) =2 $318). (1) 
J=] 


En este caso la distribución empírica es singular con respecto a la medida 
de Lebesgue y, por lo tanto, no tiene densidad. Esto puede resultar incómo- 
do en los casos cuando sabemos de antemano que la distribución inicial 
P tiene densidad. Con arreglo a esta condición sería conveniente tener una 
distribución empírica suave P; para la cual, junto con la convergencia 
P, — P, desde todos los puntos de vista establecidos anteriormente también 
tenga lugar la convergencia de las densidades fx —> f, donde f. y f son las 
densidades correspondientes a P, y P. 

No es dificil obtener esto del modo siguiente. Sea Q cierta distribución 
que tiene densidad. Pongamos 


a) 2 A). a 


fal 


donde a % L esel conjunto de puntos y € 2” para los cuales x + yh€ B; 


Pin — 0 cuando n > 00. 

Es evidente que P.*(B) no es otra cosa sino la “suma media” de las 
distribuciones Q contraídas hasta las dimensiones An y “situadas” en los 
puntos X;. La definición (2) generaliza (1). La fórmula (1) se obtiene de 


(2) si se pone Q = lo, ya que 18) = 1a(B — 1) = lo (272) para 


An 
cualquier sucesión (A). 
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Señalemos las siguientes propiedades de la distribución Ps” que llamare- 
mos distribución empírica suavizada. 

1. La distribución P;” es la convolución de las distribuciones P% y 
Q(B/An), y 


P,(B) = MP3'(B) = | o( Br ) rra») 


es la convolución de las distribuciones P y Q(B/hA,). Con otras palabras, 
P,(B) es la distribución de la variable aleatoria £ + Ary, donde ¿€ P, 
n € Q. De los teoremas de continuidad se deduce que para A, — O, 


P, =>» P. (3) 
Recordemos que para la distribución P, hemos tenido la igualdad exacta 
MP, =P. 


2. Si la distribución P es absolutamente continua con respecto a la medi- 
da de Lebesgue, la distribución Ps” satisfará los teoremas análogos al de 
Glivenko — Cantelli. Bn efecto, en este caso la convergencia (3) significará 
la convergencia uniforme de las distribuciones sobre todos los intervalos. 
Para simplificar la exposición nos limitaremos a un caso unidimensional, 
supongamos que (Fa (0), Fa() y CG) designan las funciones de distribu- 
ción correspondientes a Pa”, P, y Q) 


Fax) — FO) = ¡(Gen = Fx) = 


An | o80( 22) - F(x) = 
= Fafx) — Fx) — | o - Fons 0 (2 ). 


Aquí, como ya hemos señalado, la diferencia Fr(x) — F(x) > 0 es uniforme 
en x, y la integral presente en el segundo miembro no excede 
sup IFA) — FOM 0: 


3. La ventaja de P.” en comparación con P;, por cuya razón hemos 
introducido la primera distribución, consiste en que esta distribución tiene 
la densidad. 


m0 (E) (E) rw 
le1 


(q(x) es la densidad de la distribución Q) que para cada x, cuando n — «o 
y A, —>0, se aproxima a la densidad f(x) de la distribución P. 


5—.8B030 
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Antes de demostrar la afirmación correspondiente, cabe señalar que pa- 
ra la obtención de buenos resultados acerca de la aproximación de f(x) 
a fx), conviene utilizar las densidades limitadas suaves q. Al elegir, diga- 
mos, q indefinidas, la estimación f-(x) de la densidad suave f(x) empeorará 
premeditadamente. Como la elección de q está en nuestras manos, podemos 
considerar que, por lo menos, queda cumplida la condición 


d? = f qa Ut)dt < oo. (S) 


Teorema 1. Si q satisface la condición (5), Ax) es continua y limitada, 
ha > 0 para n => «o de modo que nh, — co, entonces 


Fi) = fala) + Ta00/V nh, (6) 


donde f,(x) es la función no aleatoria 


Sax) = MG) = marta (22) =+ [ a) Rtdt = 


S í ON — zhnJdz => f0) (0) 


para hn — 0. Las variables aleatorias tn(x) son normales asintóticamente, 


Pal) € Lo ox), 0) = fa”. 


Demostración. La suma en (4) es la suma de variables aleatorias inde- 
pendientes e igualmente distribuidas en el esquema de series, con la particu- 
laridad de que f,(x) = M/x(x) está representada en (7). Pongamos 


En g6 7) A halo |. 


a = | A 
Fix) — fulx) al Pe €x.n, Méx, n =0 


Méb,. >] [na Ate) - hafico] 
Lom) E jes. 
= [Pere — mai | aa =fda”. (8) 


Ahora bien, MEL.» —fo0d?/n si f(x) > 0. La condición de Lindeberg tiene 
en nuestro caso la forma 


nM(b a; |En. al >e€>0 (9) 


Entonces 
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para n > co y para cualquier e > 0. Como AJ3(x) > 0, nél,n < UgK(x — 
= x1)/An) + An4H(x)), entonces para cumplir (9) es suficiente que 


1 2f x -—X1 ' Xx =—X EL 
M3, 0 ( a )) (EZ ) > EN hñin > 0. 


Esta relación tiene lugar, ya que su primer miembro es igual a (compárese 
con (8)) 


PUINAX— Zhidz<c | gadr—=0. 
A2)> eVnha atz)> eVnás 


A 
Ahora bien, a la variable aleatoria tr(x) = Y) Ex. es aplicable el 
: ka] 


teorema central del límite. Esto demuestra el teorema 1. «< 

En el problema sujeto a examen surge naturalmente la cuestión acerca 
de la elección óptima de A, y de la función q(r). Sin embargo, su solución 
depende de las propiedades de suavidad de f(x). En efecto, supongamos, 
por ejemplo, que f(x) es positiva solamente en el intervalo finito y que 
es dos veces continuamente derivable con el valor fijo p = í Y” ax. 
Supongamos también que | 2q(2)dz = 0 (esto es siempre así para las q(z) 


simétricas) y que D? = í Z2q(zidz < «o. Entonces 
Ja(x) = ¡ IDA — 2RndZ = 


; AL , 
a ( a(z) [10 — ZHf" (x) + 7) FO) + oceni | dz = 


Ll 


¿sw 
=p + FLO ( Z9(2)dz + o(h2). 
Vemos que 


21 2,4o 
a E 


¿yo ¿77 
mus sr (ALMA 0 


La minimización de esta expresión en 4, y q dará, en virtud de la norma- 
lidad asintótica de £«(x), la “dispersión” mínima posible de f(x) alrededor 
del valor de f(x). No obstante, en este caso los valores minimizantes de 
Rin y q dependerán de x mediante los valores desconocidos de f(x) y f*(x). 
Para evitar este efecto y obtener la optimalidad “por término medio” es 


h* 
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natural examinar la integral 


ML) — SE0 dx (11) 


D"h; 
2 


2 2 
cuya parte principal será igual a ( ) p+ E (esto se obtiene si 
e 


en (10) se retira o(A4)). 
2 1/5 
El mínimo de esta expresión se alcanza cuando ha = ES . Con 
e 


tal elección de An, la integral (11) será igual a 


PF DAyn -4/5 + o(n7*%, (12) 


po 10 (LE LA oa + 0(n72), 


Er E Do, 1. 


Ahora bien, aquí la velocidad de convergencia constituye sólo n” Y 
a diferencia de la velocidad n”!?, la cual tiene lugar para la convergencia 
de las funciones de distribución. Es un hecho natural, ya que en la estima- 
ción del valor de f(x) toma parte, hablando en términos generales, no toda 
la muestra, sino las observaciones que se han concentrado en cierto entorno 
decreciente del punto x. 

La expresión (12) permite también elegir del modo óptimo la función 
a(z), o sea, la función para la cual se minimiza Dd?, Suponiendo, sin limitar 
la generalidad, que D = 1, obtenemos el problema de minimización d? = 
= | g'(zJaz a condición de que | g(zJdz = | 2"g(z)dz = 1, | zg(z)dz = 
=0, 

Nótese que si f tiene derivadas continuas de orden más alto que 2m > 2, 
también pueden obtenerse velocidades más altas de convergencia de la dife- 
rencia fa(x) — f(x) hacia cero. Sin embargo, en este caso es necesario 
utilizar las distribuciones generalizadas Q cuya “densidad” q puede 
tomar los valores de ambos signos y permite satisfacer las condiciones 
| PralaJaz = 1, | q(zJdz = 0 para todos los 1 << 2m-— 1. En este 
caso, mediante los razonamientos anteriores podemos obtener la velocidad 


5 


j - 2m_ PR 
de convergencia de orden de n *"+*! =p * “Zim*D la cual será tanto 


mejor cuanto mayor sea m. Este hecho se explica por la circunstancia de 
que para f(x) más suaves, en la estimación del valor de f(x) se incorporan 
los elementos de la muestra, situados en entornos cada vez más amplios 
del punto x. 
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Por otro lado, eligiendo funciones suaves q(7), podemos asegurar la po- 
sibilidad de estimar no sólo las densidades f(x), sino también sus derivadas. 
De esto también podemos convencernos a base de los razonamientos ante- 
riormente citados. 

La función fa(x), que tiene la forma (4), se llama frecuentemente esti- 
mación de Rosenblatt — Parzen de la densidad f(x) o estimación nuclear 
de f(x). En este caso las funciones q(z) se llaman núcleos. En la práctica 
se utilizan a menudo los núcleos “rectangulares”, o sea, se supone que 


— fl paraz€[-1/2, 1/2), 
a) (o para z4[-1/2, 1/2). 


A veces se procede de un modo todavía más sencillo: la recta real se divide 
en pequeños intervalos A, (de h, de largo) y se supone que f(x) = A 


para x € Ay, donde », es el número de elementos de la muestra que coinci- 
dieron con Ay. Tal función fn(x) se llama histograma de la muestra. Es 
fácil comprobar que si f(x) es continua, entonces el histograma fa(x), a 
la par con la función definida en (4), también posee la propiedad de conver- 
gencia f(x) Ped FG) si hn > 0, RA, => so, 


CAPÍTULO 2 


Teoría de estimación 
de los parámetros desconocidos 


El 5 2 contiene la descripción de las familias paramétricas más difundidas de distribuciones 
y sus propiedades principales. 

En los $$ 3-—-6 se exponen métodos principales de obtención de las estimaciones pun- 
tuales. 

En los $5 7 y 8 se examinan los enfoques de la comparación de las estimaciones. 

Los $5 9-20 están dedicados a los métodos de construcción de las estimaciones óptimas 
(en uno u otro sentido). Se destacan las cuatro direcciones siguientes: 

1) ($9 911 y 20) Enfoques bayesiano y minimax de la construcción de las estimaciones. 
Los $8 9 y 10 son de carácter adicional y contienen las definiciones y la exposición de las 
propiedades principales de las esperanzas matemáticas condicionales y de las distribuciones 
condicionales. 

2) (55 12—15) Construcción de las estimaciones óptimas (eficientes) con ayuda de los 
principios de suficiencia y de no desplazamiento. 

3) (6$ 16, 17 y 22) Construcción de las estimaciones óptimas (eficientes) basándose en 
la desigualdad de Rao — Cramer. 

4) ($9 18 y 19) Utilización de las consideraciones de invariación. 

En los $4 21-29 se estudian las propiedades asintóticas de la relación de verosimilitud. 
Sobre esta base se determina la optimación asintótica de las estimaciones de verosimilitud, 
Los resultados de los $$ 21—29 también constituyen la base de la teoría de los criterios Óptl- 
mos, desarrollada en el capítulo 3. 

Los $$ 31 y 32 están dedicados a la estimación por intervalos. 


$ 1. Observaciones preliminares 


Como ya hemos señalado en los párrafos precedentes, el objeto inicial de 
las investigaciones estadísticas está constituido por la muestra 


Xa = (X,, ...y Xan), Y € E; 


de la distribución P, la cual es desconocida por completo o parcialmente. 
En la estadística matemática se destacan, en calidad de principales, las dos 
siguientes clases de problemas: 

1. Estimación de los parámetros desconocidos. 


$ |. OBSERVACIONES PRELIMINARES 71 


2. Verificación de las hipótesis estadísticas. 

Los problemas de primera clase aparecen cuando por la muestra 
X = X, es necesario estimar cualquier característica numérica desconocida 
0 de la distribución P (que ya es desconocida). O sea, para la funcional dada 


0 = AP), 
de la distribución P debemos señalar la función de la muestra (o bien, que 
es lo mismo, la estadística) 
9” = On(X») 
destinada a la utilización, en vez del parámetro 0, en calidad de su aproxi- 
mación. En el capítulo precedente hemos visto que las premisas para esto 
existen. La estadística 0” se llama estimación del parámetro 0. Claro está 
que las estimaciones para el parámetro 6 pueden ser muchísimas. El teore- 


ma 1.3.1 muestra que, por ejemplo, para la estimación de la funcional 
0 = 0(P), que tiene la forma 


0 = [200 dFGo, 


es natural utilizar la estadística 


01 Diet 


del 


Pero claro que también se pueden examinar otras estimaciones, digamos, 


ed 1 
Ca 2800) 
ju» +) 
donde Xy) J = 1, ..., », Son los elementos de la serie variacional, etc. En 


calidad de 0” también pueden tomarse los valores que no dependen de la 
muestra. Se puede poner, por ejemplo, 0” = 0, aunque esto no siempre es 
racional y es completamente irracional cuando el conjunto de valores posi- 
bles de 9 no contiene 0. 

En relación con la última observación es preciso señalar que en el plan- 
teamiento del problema sobre la estimación se indica con frecuencia cuál 
es el conjunto € de los valores posibles de 0. Por ejemplo, si se aprecia 
la porción 0 de un mineral cualquiera contenido en la mena, entonces, claro 
está que 9e€[0, 1). 

En muchos casos también se sabe de antemano que la distribución P 
de la muestra X no puede ser arbitraria, sino que pertenece a una familia 
determinada de distribuciones 4 
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Entre los problemas de la estimación de los parámetros figura el ejem- 
plo 1 dado en la Introducción. 

Los problemas de segunda clase se refieren a la comprobación de una 
y otra suposición (hipótesis) sobre la distribución desconocida P. Por ejem- 
plo, podemos verificar la hipótesis consistente en que P tiene una u otra 
forma dada. A este tipo de problemas pertenece el ejemplo 2 dado en la 
Introducción. 

Más tarde veremos que no hay diferencia cualitativa entre los problemas 
de primera clase (teoría de las estimaciones) y de segunda clase (verificación 
de las hipótesis estadísticas). 

En este capítulo expondremos los planteamientos de los problemas y 
los enfoques que están íntimamente vinculados con los resultados del capí- 
tulo precedente y que pueden llamarse “puramente estadísticos” a distin- 
ción de los enfoques más generales de la teoría de los juegos, que se 
examinan en el cap. $. 

Los enfoques puramente estadísticos expresan, en cierta medida, la 
esencia de los métodos de la estadística matemática. Históricamente tales 
enfoques fueron comprendidos mucho antes que los métodos más genera- 
les. En cuando a su aplicación, por lo visto, el hombre los utilizaba explícita 
o implícitamente a lo largo de todo el proceso del conocimiento. 

Todo esto justifica la exposición independiente de los enfoques pura- 
mente estadísticos, a pesar de que ciertos momentos de esta exposición pue- 
den considerarse como casos particulares en el marco de las concepciones 
más generales. Al mismo tiempo revelaremos cierta insuficiencia del enfo- 
que puramente estadístico para planteamientos más exactos de los proble- 
mas. Ésto nos ayudará a comprender el carácter racional de otros puntos 
de vista. 


$ 2. Algunas familias paramétricas de distribuciones y sus propiedades 


BExaminemos algunas familias de distribuciones que dependen de los pará.- 
metros (o familias paramétricas de distribuciones) que con frecuencia sur- 
gen en los suplementos y que aparecerán en la exposición ulterior tanto 
de hecho como en calidad de ilustraciones. 

1. Distribución normal en una recta. Con el símbolo 9. ,> designare- 
mos la distribución normal con los parámetros («, a?), o sea, la distribu- 
ción de densidad 

1 Z a 
Pa, (Xx) Vir e , 


así que 


da AB) = [eu.etndx: 
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Sit €E Lo y k>0 es un número entero, entonces, evidentemente, 
ME*+*!=0, 


Para los momentos de orden par, utilizando la sustitución x = v2u, encon- 
tramos 


a__2 e O a ku du  _ 
k 
E — T(k + 1/2), (1) 


donde IMA) = fo te=tax es la función P, MA) = A -— DPA -— 1, 


(1/2) = vx, así que 
ME? a (2k — 191! = Qk - DOk - 3)... l. 


También obtendríamos este resultado si hubiéramos derivado 2k veces 
la función característica e” 7? en el punto f = 0. 

2. Distribución normal multidimensional. En el caso multidimensional 
Z"= R”, el símbolo €.,. significará la distribución normal en R” con el 
vector de esperanzas matemáticas a = (u1, ..., Am) y con la matriz de se- 
gundos momentos centrales o? = lay £ j= 1, ..., m. Si A es la matriz 
inversa a o? (en los casos cuando ella existe), entonces la densidad a, .? 
(x) en R” de la distribución $, .: tiene la forma a (véase (11), p. 148) 


60.000 = ur ap - q 00 AM 17), 


donde x” es el vector transpuesto. Recordemos también (ya hemos utilizado 
este hecho en el 6 1.7) que la función característica de la magnitud E € 
E Pa. es igual a 


Me" = exp (ta? — 7 roer) Ñ 


donde f = (fi, ..., tm) es el vector en R”. 

3. Distribución gamma. El símbolo T,, 1 designará la llamada “distribu- 
ción gamma” (o distribución TN") con los parámetros (a, A). La densidad 
Ya, Mx) de esta distribución depende de dos parámetros a >0 y A>0 y 
es igual a (véase (11] y $ 7 del cap. 6) 

a Ale" xz0 
TO) » , 
Ya, a(%) = 0 x< O, (2) 
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donde I(A) es la función J' definida en (1). La función característica de 
la distribución T' tiene la forma (([11)]) 


> 


[et ande = ( - e , (3) 
0 


Si ¿ € P.,a, entonces 


PA) PA) 


0 


o 5d = -=1 
ME =-% [rte ma LO [prmteray PAD. (4) 
0 


Para enteros f > 0, el mismo resultado podría ser obtenido derivando la 
función característica. Poniendo f = 1, 2, encontramos 


Mí = Va, DE= Va? (5) 


De las fórmulas (3) y (4) se deduce que el parámetro a: desempeña el 
papel de escala, así que 


ya E Tar si 9 E Tin 


En virtud de esta circunstancia, muchas propiedades de la distribución 
TP pueden ser estudiadas para un valor cualquiera de a, por ejemplo, para 
a = 10 para a = 1/2. A menudo el segundo valor será para nosotros más 
cómodo, ya que la distribución T',,2,, desempeña un importante papel inde- 
pendiente en la estadística matemática y se llama distribución ““ji- 
cuadrado” (o distribución x?). 

4. Distribución “Ji-cuadrado” Hizcon k grados de libertad. Así se deno- 
mina la distribución Hx = T'yy2, «/2 cuando X > O son enteros. Conservare- 
mos esta denominación para la distribución Hx cuando también se trate 
de k > 0 arbitrarios. En virtud de (3), la función característica de la distri- 
bución H, es igual a 


a - 2i07*2. 


Indiquemos las tres siguientes propiedades de la distribución Ha. 
1) Si y, son independientes, n;, € Hx, ¡=1, ..., s, entonces 


s 3 
2m € He, k =D) Kk. 
im d=1 


Esta propiedad se deduce directamente de la forma de la función caracterís- 
tica de la distribución Ha. 

2) S1 E E $... donde %. 7 es la distribución normal k-dimensional 
con la matriz no degenerada de segundos momentos a?, entonces 
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QU) = (£ - aja" (E — a) EM. 
En efecto, la función característica de la variable aleatoria O(£) es igual 


Me*20 = AP ap (+ 00d — 2it)) dXx, ... AXx. 


Sustituyendo las variables xy Y1 — 2if = »;, obtenemos la expresión 


a — 2712 1] A 
(Qm*? 


que es lo que se necesitaba demostrar. El hecho de que la integral en el 
primer miembro no depende de la variación del dominio de integración 
se deriva de la analiticidad de la función subintegral y de su decrecimiento 
rápido cuando |y»| —oo (compárese con (11), p. 131). 

De lo dicho resulta que la distribución Haz está contenida en la variable 
aleatoria 


xs El + sd + El 


donde E; son independientes, ¿y € Po 1. El término “número de grados de 
libertad” está precisamente relacionado con esta representación. 

3) Como Mé? = 1, MÉÍ = 3, DET = 2 para £,€ do, 1, entonces, en virtud 
del teorema central del límite, para ko, 


De aquí y de los teoremas de continuidad enunciados en el $ 1.5 se deduce 
que a la par con (6), 


(6) 


—- -2k-1 €E Lo. 


Esta convergencia sirve de base para la i ps aproximada (en caso de 
k y x grandes) H:£(0, x) = pra 1), Y) = Lo, ((-— “o, x)), 
da cual, por regla general, Flia 2 exacta que la aproximación 


Hx((0, x) = (5 7) que se deduce de (6). 


Señalemos otro caso particular de la distribución F', el cual aparece a 
menudo en las aplicaciones. 
S. Distribución exponencial. Es la distribución T. , de densidad 


ae“, x>0. 
De las fórmulas (5) obtenemos, para ¿€ T..,, 
Mi = l/a, Di ='1/oé. 
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Examinemos ahora ciertas distribuciones relacionadas con las distribu- 
ciones normal y gamma y que desempeñan un papel importante en la esta- 
dística matemática. A distinción de las anteriores, con estas distribuciones 
no hemos tropezado anteriormente. 

6. Distribución de Fisher Fx,x, con X: y kz número de grados de liber- 
tad. Así se llama la distribución de la variable aleatoria 


f= m/m, 


donde 7, son independientes, n,€ Ha, j = 1, 2. De las propiedades de la 
distribución T' se deduce que la distribución de y queda igual cuando 
y €ET., 1y2 y para cualquier a > 0, y que y cuando k; son enteros, admite 
la representación 


és + ...+8 
E 2% 


donde las variables aleatorias Es $4 son independientes, ¿Edo 1, 1xE do, 1. 
Hallemos la densidad de la distribución F;, «,. Tenemos 


vUX is 1 
Pr<xs |! Pra. (du) Pa ldu) = Í | Y 


,.3, FOOT bd 


ES 


dP(i<x) _ f a ES 
fotos PEE | A ed > 
0 


7 qn? ( »)+A=1 (1 +2) PS ON + A) 
TAJO | RA 


Es evidente que la densidad necesaria se obtiene si aquí se sustituye 
A = ky/2. Es fácil determinar los momentos de la variable aleatoria y (si 
éstos existen): 


M?P A PQ, + A2) +1 a TQ + DTQ:2 — 1 (8) 
TANTO) TEEN TANDO: j 


En particular, cuando /= 1, 2, obtenemos 


AS _ MA +1 
a reo 


La distribución de Fisher también a veces se llama distribución de Sne- 
decor. Esto se debe al hecho de que Fisher propuso utilizar y tabuló, en 
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realidad, no la distribución de f, sino la de la variable aleatoria y In £. 


En cuanto a la distribución de /, ésta fue tabulada un poco más tarde por 
Snedecor 

7. Distribución de Student “T, con k grados de libertad. Esta es, por 
definición, la distribución de la variable aleatoria 


£o 


Vir... + eb 


donde E, son independientes, Edo Lj=0, ..., k. Es evidente que —/ 
tiene la misma distribución y, por lo tanto, la distribución de Student es 
simétrica con respecto al origen de coordenadas. Luego 
p? = 48 Ñ = Em 
El E y El nm” 


1= 


donde n, son independientes, y, €H,, n26Hx. Esto quiere decir que */k 
tiene la distribución de Fisher. Examinemos la variable aleatoria 7 = VÉ, 
t = 1/n, 1y¿EHx, Como Plr < x) = P(y < 17), la densidad fin(x) de la 
variable aleatoria 7 será igual a 


, a: DOE 
SA) = fi) = 2x FAONO) AI 


_ TARADO 2? e 
= TONO) ara AS 4/2 > 0. 


De aquí, cuando A; = 1/2, A2 = k/2, se puede obtener, de un modo eviden- 
te, la densidad |*|/Vk. Como la distribución de t es simétrica, para la 
densidad f(x) de la variable aleatoria f tenemos finalmente 


a EE Dr e 
SO TA?) (1 + +) 


Por supuesto que todos los momentos de f de orden impar (si existen) son 
iguales a cero. Para los momentos de orden par 2/ tenemos, en virtud de (8), 


(9) 


eS tp TO + DTO: — 
MO” = KM =E PAPA: ' 


donde es necesario poner A, = 1/2, kz = k/2, 21 < k, Si | = 1 obtenemos 


Mr? = 


” Student es el seudónimo de W. S. Gosset. 
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Según su forma, la función f.«)(x) se parece a la densidad de la ley nor- 
mal. Además, con el crecimiento de k, 


- 3/2 


fu) —- um e , 


que significa la convergencia 1 € $o 1 cuando k —«o. Sin embargo, fu)y(x) 
tiene “colas más gruesas”, puesto que con el aumento de |x|, la función 
(9) disminuye mucho más lentamente que e”? así que para todos 
b>0, 


Tr((— b, DY) < Po.((—b, b)). (10) 


En este caso, la diferencia entre el segundo y el primer miembro en (10) 
puede ser considerable cuando X no son grandes. 

El lector también puede demostrar la convergencia 1 = Vkto /Vn2 
hacia la ley normal, utilizando otra vía, por medio del teorema de continui- 


dad. Por ejemplo, basta con notar que S => +... + E >1y 


por lo tanto, f —> to, t =» to. 


8. Distribución beta (B-distribución). Así se llama la distribución Bh,, M 
de densidad 


PO: + A2) 
O, xG[0, 1) 


Se denomina así debido a la función beta 


taa), elo, 11, 


1 


La distribución beta está relacionada con la distribución gamma y la 
distribución de Fisher por medio de la afirmación siguiente: 
Si y, son independientes, y¿ET a, y lo bien n¿E H;,,,), entonces 


E. CA 
Bb TEA 


donde Y = m/m € Fa, 2», 
La demostración de esta afirmación es muy fácil, ya que en virtud de 


D,P6<0=r(s< 2). 
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A x x Y _TQ+MmYf/ x Yi"! 
Ja = e (427) (E =x -) = Tanra) (1= 7) 2 


Para los momentos de la variable aleatoria $ tenemos 
] 
¿TO +) (A og o TAO A 
MB = FAJro) |» EE 


Para / = 1, 2 obtenemos 


OS - IN M0: +1) 
dd MP ANAND" 


9. Distribución uniforme. La distribución uniforme sobre [0, 1], que 
se obtiene si se pone A; = Az = 1, es un caso particular de la B-distribución. 

Designaremos con el símbolo U,, » la distribución uniforme sobre el seg- 
mento (a, b], así que B, ; = Uo,.. 

Con ayuda de B-distribución se puede describir la distribución de los 
términos de la serie variacional xx) de la muestra X. 

Teorema 1. Si X € P es la muestra de la distribución P con la función 
continua de distribución FE, entonces 


Ya) = FO) E Bin-«+1 


Demostración. Como yr = F(xx*) € Uo, 1, entonces yx) = Fa) puede 
considerarse como término de la serie variacional de la muestra Y 6 Uo,. 
Determinemos P (yw) € (uu + du)). El suceso (yq) € (14, u + du) se puede 
representar como la unión de los sucesos disjuntos 


Aj= ly € lu, u + du), Y; = Yu), 


que se producen cuando y, adquiere el valor de (u, u + du) (esta probabili- 
dad es igual a du), cuando k — 1 observaciones, de las n — 1 restantes, 
caen en el campo de valores de (0, 14), y cuando r — k observaciones caen 
en el campo de valores de (u, 1). Por consiguiente, 


PA) = Có1ué= 1 - wr du, 
PO) € (u u + du)) = nC£ 7 iu*=*4 - uy > *du. 
Esto precisamente significa que la densidad y(x) existe y es igual a 


n! a h e uy *= Tn ad 1) 


k- n- 
E=Da=01 * Tora + y 0-0 
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Basándose en el teorema 1 también es fácil obtener la distribución límite 
de los términos de la serie variacional cuando el volumen de la muestra 
X crece ilimitadamente. Aquí sólo examinaremos un resultado que se deriva 
de los teoremas de continuidad. 


Teorema 2. Si a = > Go € (0, 1) cuando n=, entonces 


k 
n+1 
Joa E %.:i 


Demostración. En virtud del teorema 1, yx) € Bx, » - 2 +1 y, por lo tanto, 
en virtud de las propiedades de la B-distribución, es válida la representación 


A, LA = = se ; 
OS Mm y € Hr, k: = 2k, k 2(n — k + 1) 


Pongamos, para comodidad, a, = a, az = | — a, y supongamos que a = do 
ha sido fijado. Entonces, evidentemente, ky/(n + 1) = 2a;,, j = 1, 2 y, en 
virtud de la propiedad de la distribución x?, 


w=Kk +V2k), BP » 9 G do; 


a1 1) 
a) + 
; A+T E 


A óN 7 En + V 1 ES 


Nos queda utilizar el teorema de continuidad 1.5.3A para 


Y) = 


OS: CA 5 w 
e rr a A 


Como y, (y, por lo tanto, también ¿%) son independientes y 


dH _ l dH _ _ h 
JA — (M+AY ' a (41 + ay? 


obtenemos 


Ve-ayn+1.adYa E -avVa ES = Yara: E, E € Pos. 


Si a depende de n, entonces conviene utilizar la observación 1.5.1, <a 
Corolario 1. Si a = kK/(n + 1)>00 € (0, 1) y la función continua F es 


continuamente derivable en el punto fo = F”*(a0) (cuantila de orden as), 
entonces 
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Vo En 
Xx) = $ [E En € %o1, (1) 


donde y = F”*(a) es una cuantila de orden a, f(x) = F'(x). 
Esta afirmación se obtiene directamente del teorema de continuidad 
1.5.3 (teniendo en cuenta la observación 1.5.1) si se utiliza la representación 


xa) =F” La) = F7 (iz ta) 


GF O 2. 1 

dx HE" o 

Observación 1. La afirmación (11) generaliza, de cierto modo, la afirma- 
ción del corolario 1.8.1. La misma también puede ser generalizada en otro 
sentido. Sea, para x—>f, 


|FC)- FW)|-clx- $1” y >0. 


Entonces es fácil ver que, cuando y—a, 


| F=4y) — F7 a) | - | ya 


ec 


y el hecho de que 


l/» 


y, por lo tanto, de 
(ua) — par => (ap(1l — el. |” signg, ¿E%do.: (12) 


Cuando y = 1, c€ = f(f), de aquí se deduce (11). 
10. Distribución de Cauchy K,. , con parámetros (a, 0). Así se llama 
la distribución de densidad 


] 


ESC AR 0. A AS 
ld += n= e 7 y 


o 


Al igual que en el caso de la ley normal, aquí los parámetros « y o son, 
respectivamente, los parámetros de desplazamiento y de escala. La forma 
de la distribución Ko,+ es muy semejante a la de bo, y, sin embargo, Ko, 1, 
al igual que la densidad de la distribución de Student, tiene "colas mucho 
más gruesas” (o sea, un decrecimiento más lento cuando | xj -—>+<o), así 
que la distribución Ko . no tiene incluso una esperanza matemática finita. 
En (11] hemos señalado (véase el cap. 7) que las distribuciones K, ., al 
igual que las distribuciones normales, poseen propiedad de estabilidad. La 
función característica xo,1(1) de la distribución Ko , es igual a 


xo, (0) = ell, 


por eso Xa, o(£) = expliatt — o|£!), 


6—-8030 
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Xar a ()Xa, o (1) = exp[ (on + 01m)! — (01 + 02) | r | ), 


así que la convolución de Ko, «, Y Ka:, a, €s igual a Ka, +0. 0, +0: NO eS 
difícil ver que Ko , = T.. 

En las aplicaciones se encuentran con frecuencia las funciones de dife- 
rente género de las variables aleatorias normalmente distribuidas. Una de 
ellas es la función exponencial con la cual está relacionada la llamada distri- 
bución lognormal. 

11. Distribución lognormal L., .:. Diremos que y € Lao: si In n€ 
€ %..7. En otros términos, y = ef, donde E € %. +. De aquí se deduce 
que la distribución L,,.+ está concentrada en el semieje positivo. 

La densidad de y € La.o, en virtud de las fórmulas para la densidad 
de la función de la variable aleatoria (véase [11], p. 53), es igual a 


Pa. (In x)x7?. 
Además, hallamos 


1 - Lal (a+ y -a 
My = | e” e dy = ex Xx 
le E gy e exp 
1 (y - a —- 0?) a + 02/2 
Xx = = 
Vaz ol a e 
(y - ay 
20 dy = ete+?o. 


271,2 l Ñ 
dis | da 
12. Distribución degenerada. El símbolo Ll, (ya hemos utilizado esta de- 
signación en el $ 1.2) significará la distribución degenerada concentrada 
en el punto a. 
En el caso general, cuando se examina una familia arbitraria de distribu- 
ciones que dependen del parámetro 0 (escalar o vectorial), utilizaremos la 
designación Po. La propia familia se designará con el simbolo 


(Pojoco 


donde 6 es el conjunto de valores posibles del parámetro 6. Estas mismas 
designaciones se emplearán para las familias de distribuciones 1—12, Por 
ejemplo, [Po .1)aer significará la familia de todas las distribuciones nor- 
males con una varianza unitaria, 

Las distribuciones 1—11 son absolutamente continuas con respecto a 
la medida de Lebesgue. Introduzcamos ahora las designaciones para tres 
distribuciones discretas bien conocidas (absolutamente continuas con res- 
pecto a la medida de cálculo (B):4(B) = k si B contiene X puntos de valores 
enteros). 

13. Distribución de Bernoulli B;. Según la definición, ¿ € B¿ (n es 
un número entero, p € [0, 1]) si 
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P(é e k) = Cipt(U1 =p”, 0O<k<n. 


14. Distribución de Polsson TI,. Esta distribución se determina por me- 
dio de la igualdad 


15. Distribución polinomial. Designaremos esta distribución por Bj, 


donde nr > 0 es un número entero, p = (Pr, ..., Pr» Ppp20, >= 1. 
Jul 
Para el vector aleatorio entero y = vi, ..., vr) escribiremos y € Bf si para 
k= (ki ..., kk >0, »¡k¡=n es válida la igualdad 
jui 


n! k, k, 

ES Ki... Kr! E 
La distribución Bp corresponde a la sucesión de n pruebas independien- 
tes, en cada una de las cuales se produce uno de r casos posibles incompati- 
bles Ar, ..., Ar; entonces la probabilidad de que aparezca el caso A; en 
una prueba es igual a p¿ Las coordenadas », del vector y significan las 
frecuencias de aparición de los sucesos A, después de n pruebas (véase, 

por ejemplo, (11)). Es evidente que para cada ¡=1, ..., Í 


y) € Bp, 


En el experimento ilustrado, el caso de la j-ésima prueba puede ser descrito 
por el vector de r-coordenada xy, cuya r — 1 coordenadas son iguales a cero, 
y una coordenada es igual a 1. El número de esta coordenada es el número 
del suceso que se produjo en la j-ésima prueba. Evidentemente que 
Ud 
y = Y,x,. Con respecto a la muestra X, formada por Xi, ..., Xn, NOS 
Jel as 
será más cómodo escribir 


X E B,, 


donde B, = Bf. El espacio Z'para tal muestra es, por lo visto, finito y cons- 
ta de r puntos. Si p = (pi P2), pi + pz = 1, obtendremos el esquema de 
Bernoulli, para el cual utilizaremos las mismas designaciones, identificando 
B(p,, p2) con Bp, = BJ, (véase el subpárr.13). En el caso general, la distri- 
bución B, depende, en realidad, solamente del parámetro de dimensión 
r—1 (PD, ..., Pr-1), así que en vez del índice p se podría escribir (p,, 
so. Pro 1). 

Muchas de las distribuciones examinadas más arriba, por ejemplo las 
6* 
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distribuciones Po 1, Hz, Fx... %z, Tx IM, están tabuladas en los manuales 
de estadística matemática y se ofrecen en tablas especiales (véase, por ejem- 
plo, 18). 


$ 3. Estimación puntual. Método principal de obtención de estimaciones, 
Conciliabilidad. Normalidad asintótica 


1. Método de sustitución. Conciliabilidad. En el $ 1 hemos introducido 
el concepto de estimación. Formalmente, estimación es lo mismo que esta- 
dística, o sea, toda función medible 0” de una muestra. No formalmente, 
el sentido que se le da a este término consiste en que llamamos estimaciones 
0” sólo a las estadísticas que deben utilizarse en vez del parámetro descono- 
cido 6. Con otras palabras, 0” es cierta aproximación para 6, basada en 
la muestra. La magnitud 0” también se denomina estimación puntual para 
0, a distinción de las estimaciones por intervalo que serán examinadas más 
adelante. 

La representación de una estimación presupone, de ordinario, la repre- 
sentación de funciones (de la muestra X,) definidas para todos los valores 
posibles de n. Por eso, en lo sucesivo el término “estimación” significará 
la familia de estadísticas 0” = 9,(X,) definidas para todas los rn = 1, 2, ..., 
donde 6” es la función sobre 2”, o bien, que es lo mismo, una función 
9” = 0'(n, X=) definida en el producto del conjunto de números enteros 
y 27”. 

De acuerdo con el $ 1, consideraremos que en el planteamiento del pro- 
blema de estimación está definido el conjunto € de los posibles valores 
del parámetro 0 y la familia 4de las posibles distribuciones P de la muestra 
X (que pueden ser, digamos, sólo las distribuciones normales Pa, 1 O las 
distribuciones de Poisson Mí, para las cuales es preciso estimar los paráme- 
tros desconocidos a, A). Si faltan cualesquiera limitaciones para 6 (o para 
P), entonces podemos considerar que 6%coincide con el espacio euclidiano 
de dimensión correspondiente (con el conjunto de todas las distribuciones). 

Si para designar el parámetro, en vez de 0 se utiliza otra letra cualquiera, 
por ejemplo A, las estimaciones de este parámetro se designarán del mismo 
modo: añadiendo a A el índice superior en forma de asterisco. Por ejemplo, 
para el parámetro a de la ley normal es natural examinar la estimación 


Los momentos muestrales que se utilizan para la estimación 
Mx, = [xP(dx) y Dxi = [(x — Mx1)*P(dx) 
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tienen sus designaciones especiales tradicionales 


e S y o. Y Y. 


jm] ínl 


Ya hemos señalado que para el parámetro dado se pueden indicar varias 
estimaciones, tantas como se quiera, y antes de examinar de qué modo en 
cada situación concreta conviene comparar sus cualidades, fijaremos la 
atención en ciertos métodos “regulares” generales de su construcción. 

Estos métodos agrupan en sí los enfoques más racionales del problema 
de estimación y posteriormente nos permitirán obtener las mejores estima- 
ciones en uno u otro sentido. 

Casi todos los procedimientos de estimación se basan en el siguiente 
método principal, que podría llamarse método de sustitución de la distribu- 
ción emptrica (o simplemente método de sustitución). 

Sea X., € P y representemos el parámetro desconocido 0 en forma de 
cierta funcional G de la distribución P: 


0 = G(P) : 


Supongamos, luego, que P significa, como antes, la distribución empírica. 
Entonces, el método de sustitución prescribe que en calidad de estimación 
0” se tome la función A 

60” = G(P»,). 


Tales estimaciones serán llamadas estimaciones por el método de susti- 
tución o simplemente estimaciones de sustitución. 

La funcional G se da, a veces, en forma implícita como solución de 
cierta ecuación H(0, P) = O, resoluble con respecto a 0. En este caso, en 
consonancia con la definición principal, llamaremos estimaciones de susti- 
tución a toda solución de la ecuación H(0, Ps) = O. 

Si se sabe que el conjunto de los posibles valores del parámetro 6 € 
ER* está limitado por el dominio O de R*, el cual no coincide con R*, 
esta información se puede tener en cuenta al construir las estimaciones de 
sustitución. Admitamos que el domino O está cerrado y sea Pel conjunto 
de las posibles distribuciones de la muestra X, O = (G(P) rea Defina- 
mos la funcional G,(P) para P arbitraria, como el valor de / € O para 
el que se alcanza 


mín | 1 — G(P)| = |Gi(P) — G(P)], (1) 
así que G,¡(P) es el punto de O más próximo a G(P) Como 
G¡(P) = G(P) = 0, si P € 4 entonces la estimación 

9” s Gi(P,), (2) 
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junto con G(Ps), será la estimación de sustitución, con la particularidad 
de que el conjunto de los posibles valores de 0* pertenecerá a 6. 

En cuanto a las estimaciones (1) y (2) diremos que se han obtenido debi- 
do a la contracción del método de sustitución. 

Supongamos, por ejemplo, que se estima el parámetro « de la distribu- 
ción normal $,, , y que sabemos de antemano que «a € [0, 1]. Entonces 
puede resultar que la estimación a” = Xx [0, 1] (evidentemente que 
X= j tdFA(0) es la estimación de sustitución). La contracción del método 
de sustitución recomienda en calidad de estimación tomar el punto (0, 1] 
más próximo a X. 

Señalemos ahora, que en la forma enunciada, el método de sustitución 
no siempre tiene sentido. El hecho consiste en que la funcional inicial G 
puede resultar no definida sobre el conjunto de distribuciones empíricas. 
Supongamos, por ejemplo, que es sabido de antemano que la distribución 
P pertenece a la clase 42 de distribuciones absolutamente continuas con 
respecto a la medida de Lebesgue, así que cada Pe 4 tiene una densidad 
igual a f. 

Pero a nosotros nos interesa el valor de 


0 = G(P) = [tendx = (2) as 


Está claro que en este caso G(P%) no tiene sentido, ya que P, es una distri- 
bución discreta. En tales casos el método de sustitución siempre puede ser 
modificado naturalmente de manera que conserve su esencia. En el ejemplo 
citado, donde G(P) es la funcional de la densidad f, conviene, en calidad 
de 0”, examinar, de acuerdo con el método de sustitución, el valor de 
G(P5”), donde P;” es la distribución empírica suavizada (véase el 8 1.10) 
que asegura la convergencia de la densidad empírica hacia f(x). 

También puede resultar que en algunos casos G(P,) tenga sentido no 
para todas las X,, sino sólo para X, € An, donde P(X, € 4»)>1 cuando 
n=»00. Esta circunstancia no tendrá ninguna importancia en cuanto a la 
esencia de la exposición ulterior del material, y para precisar podemos po- 
ner G(Px) = 0 para X, € An. En este párrafo, para simplificar, estimaremos 
que G(Ps) tiene sentido para todas X, € 2”, y que 0” es una variable aleato- 
ria, o sea, que la función G(P;) realiza la aplicación medible de 2” en 
R*, donde k es la dimensión de 9. 

El principio de sustitución es un enfoque muy natural del problema, 
puesto que, como ya sabemos, la distribución Pa se aproxima ilimitadamen- 
te a P a medida que crece r. 

Sea Xa =|Xo|n: 

Definición 1. La estimación 6* = 6:(X,) (o la sucesión 0,(A)) se llama 


$ 3), MÉTODO PRINCIPAL DE OBTENCIÓN DE ESTIMACIONES 87 


conciliable si a 
9 => 04 
P 
cuando n—+o. 
La estimación 0” se denomina fuertemente conciliable si, para n—oo, 
9" = 4 
€.8 
Sea F, como siempre, la función de distribución correspondiente a P. 
Teorema 1. Supongamos que 0 = G(P) y que la funcional G pertenece 
a una de las dos clases, o que es representable en la forma 


G(P) = A([2e(0)dF(x)), (1) 


donde h es una función continua en el punto a = je) dFo(x) (funcional 
de tipo I), o representable en la forma 


G(P) = Gi(F), (1D 


donde la funcional G, es continua en el punto Fo, en la métrica uniforme 
(funcional de tipo 1). Entonces, si X € Fo, 0” = G(P;) es una estimación 
fuertemente conciliable: 

9— 0, 


es. 
La afirmación de este teorema se deduce directamente del teorema 1.4.1. 


2. Normalidad asintótica. Caso unidimensional. 

Definición 2. La estimación 6” del parámetro 0 se llama asintóticamente 
normal (a.n.) con coeficiente a? > 0, si (0* — 0) Vn € Yo... 

La última relación también puede leerse del modo siguiente: la estima- 
ción 0” a.n. con los parámetros (0, 0*/n). 

Supongamos que 0” es la estimación de sustitución del parámetro 
0 = G(P) y que se cumple (1), o sea, que 


y" - de S 80) E) 


¿m1 


es una estadística de tipo 1. Entonces, de los resultados del $ 1.7 se deduce 
la afirmación siguiente. Supongamos que Ó es un parámetro escalar, y £, 
una función escalar. 

Teorema 2. Sea XEFv, h derivable en el punto a = [2bo0dFobo, 
0<|A (0|j< o, (20) dFotx) < oo, Entonces 0” es la estimación a.n. con 
coeficiente 


o” = [2 (A) — ar dFo(x). 
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Los ejemplos examinados en el $ 1.7 también pueden utilizarse como 
ilustraciones de este teorema, ya que las estadisticas examinadas en ellos 
se utilizan en calidad de estimaciones. 

Análogamente podríamos, utilizando los resultados del $ 1.8, obtener 
las condiciones de normalidad asintótica de las estimaciones que son esta- 
dísticas de tipo 11. El lector puede obtener las afirmaciones necesarias, utili- 
zando el teorema 1.8.1 sin cualesquiera modificaciones, pero exigiendo, no 
obstante, que en su enunciación se cumpla k = 1, y que la derivada g sea 
tal que g(Fo w”) E Po,a. 

3. Normalidad asintótica, Caso de parámetro multidimensional. 

Definición 2A. La estimación 0” = (61, ..., 0) se denomina estimación 
an 8 =(01, ..., 0x) con matriz o?, si 


(0” - On E Loa, (4) 


donde $, .: es la distribución normal X-dimensional con vector nulo de 
las esperanzas matemáticas y con matriz de segundos momentos o* = loz]. 
La densidad de esta distribución es igual (véase el $ 2) a 


STA. _-L xa? 

$ = e ? : 

0, (Xx) 27 

donde A es una matriz inversa a 0%, x= (X1, ..., Xx). 


Si 9* es la estimación de la sustitución y la misma es una estadística 
de tipo l (o sea, representable en forma de (3), donde g, hablando en gene- 
ral, junto con 6” y h, es una función vectorial), entonces, para determinar 
las condiciones de normalidad asintótica se puede utilizar el teorema 1.7.1A 
y la observación a él. En este caso obtenemos la afirmación siguiente. 

Teorema 2A. Supongamos que 0* € R* se define por la igualdad (0), 
dondeg = (21, ...-,8s) € R', y la función vectorial h(t) = (MD, ..., Ax), 


t = (ht, ..., ts) tiene en el punto a = (41, ..., 4s), ay = jar) aFo(x) las 
derivadas parciales —— SL (a) l=1, ...,k j=1, ..., s. Entonces, si 
XE Fo 

(0 — Gin = EH”, 
donde £ =(E1, ..., Es) € Loa es el vector normalmente distribuido, con 


la media nula y la matriz de segundos momentos d? = |dyy, di; = M(gi0a1)— 
- aye) - a), ij=1, ..., 5 H= Yu es una matriz de dimensión 


k x s, con los elementos hy = e Mdi=l . kj=kho...s 


Esto significa, a su vez, que al cumplirse las condiciones del teorema 
24, 0* es una estimación a.n. con matriz o? = Hd?*H* = MHE*¿H”. Cabe 
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señalar que las matrices o? y d? aquí tienen, hablando en general, dimensio- 
nes diferentes (AX y s). 


5 4. Realización del método de sustitución en el caso paramétrico, 
Método de momentos 


Sea X E Pp donde (P;)Joce es la familia de distribuciones Pa que ya co- 
nocemos y que dependen del parámetro 0. En nuestras investigaciones, el 
parámetro desconocido 9 del conjunto O puede ser tanto escalar como vec- 
torial. Por ejemplo, si X € %a.., entonces Ó = (a, a?) es bidimensional, 
y el conjunto € puede ser tanto un semiplano (o < a < w,0>0) co- 
mo cualquier parte de éste. 

La esperanza matemática y la varianza de la estadística $ = S(X) en 
función de la distribución Po serán designadas por MoS y DyS, respecti- 
vamente. 

Más adelante examinaremos algunos métodos de estimación, cada uno 
de los cuales puede interpretarse como la realización del principio de susti- 
tución de una distribución empírica. 

1. Método de momentos. Caso unidimensional. Escojamos g(x) de tal 
modo que la función 


m(0) = Meg(x1) = feb0Pa(dx) (1) 


sea monótona y continua. El campo m(09) de valores m(0), 0 € O tiene 
la misma “naturaleza” que €. Si, por ejemplo, € es un segmento del eje 
real, m(O) también. será un segmento. 

Es evidente que la ecuación m(0) = res unívoca y continuamente resolu- 
ble en el campo m(O) respecto a 0:90 = m”*(t), y que (1) se puede escribir 
del modo equivalente en la forma 


0 <= m”*(fe(x)Polax)). 2) 


Supongamos simplemente, que 


Em lecoar:0o = 7 Deo e mío) 


dm1 


para todas X € 2”, 
Definición 1. Se llama estimación por el método de momentos la esti- 


mación 
0 = mg). 


Si g 4 m(O), se puede poner, conforme a (3.1) y (3.2), 
0 =m” (Lo), 
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donde go € m(9) es el punto de m(O9) más próximo a g. 

No es difícil darse cuenta que esto constituye la estimación con arreglo 
al principio de sustitución. La elección de la función m(0) nos ha permitido 
expresar 6 en forma de la funcional (2). También está claro que la estima- 
ción (3) es una estadística de tipo I, así que, en virtud del teorema 3.1, 
las estimaciones conforme al método de momentos serán fuertemente con- 
ciliables. Si además, la función m es derivable en el punto 60, 

eL P (dx) < oo, entonces, según el teorema 3.2, la estimación con arre- 
glo al método de momentos será a.n. con coeficiente (m'(6)) 7 *“Deg(x;). 

El método de momentos fue propuesto por C. Pearson (en forma algo 
más particular) e históricamente es el primer método regular para construir 
estimaciones. 

La propia denominación de “método de momentos” se debe al hecho 
de que su esencia consiste en igualar entre sí los momentos “teóricos” y 
empíricos (esperanzas matemáticas) de la magnitud g(x,): pues la estima- 
ción (3) no es otra cosa sino la solución de la ecuación 


mí8) =1 > 200) (0 
i=1 


También se puede añadir que en calidad de g(x) se elige con frecuencia 
la función g(x) = x o bien g(x) = x*, k > 1, así que nuestra ecuación se 
convierte en ecuación para momentos ordinarios. 

La igualdad (4) también puede considerarse como el resultado de la 
igualación del valor medio de la magnitud g(x,) “en el espacio”, a su valor 
medio “en el tiempo”. 

El carácter no únivoco del método de momentos, así como de todo 
el principio de sustitución, aquí se manifiesta sobre todo bien: pues casi 
nada limita la elección de la función g£(x). 

Ejemplo 1. Supongamos que X € T.,, y que a se desconoce. Cons- 
truyamos las estimaciones conforme al método de momentos con dos fun- 
ciones elementales g(x):8:(x) = x y gu(x) = x%. Son válidas las igualdades 
siguientes (véase el punto $ del $ 2)): 


m(0) = Mogi(x1) = [Paste = 1/0, 


mía) = Meg (x1) = PT a, (dx) = 2/0? 


0 ” 


Resolviendo las ecuaciones mi(a) = X, m2(a) =- > xi obtenemos 


¿=1 
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las estimaciones según el método de momentos 


es - 1/2 
n=" ya (52) ] (5) 


i=1 


Estas dos estimaciones son estadísticas de tipo 1 y podemos describir 
sus propiedades asintóticas. A base de las igualdades (2.4) obtenemos 


Dagrlx1) = Dax; = 1/0? Doga(x1) = D,xi = 20/a, 


En vista de que para la primera estimación, Mmí(a) = —1/a*, y para la se- 
gunda, mí(0) = — 4/a”, a base de los teoremas 3.1, 3.2 obtenemos que am- 
bas estimaciones a” y a” son fuertemente conciliables y a.n. con 
coeficientes, respectivamente, 


l A 2 20 Ñ a? _ 5 2 
cd 

Evidentemente, conviene dar preferencia a a”, ya que su “dispersión”, 
en caso de grandes valores de n alrededor del valor verdadero de «, que 
se mide con arreglo a la varianza de la distribución límite, es menor que 
la “dispersión” para a”. 

2. Método de momentos. Caso multidimensional. De un modo comple- 
tamente análogo se examina el caso cuando d es un parámetro multidimen- 
sional, 

Supongamos, como antes, que k es la dimensión de 0. Elijamos la fun- 
ción vectorial g(x) = (2100), -.., £r0)) de modo que la ecuación 


m(0) = t, 
donde Í= (t, ...» tr), m(0) de (m1 (0), ..., m1 (0), 
my(9) = Megas) = [g/00Po(dx), 


sea unívoca y continuamente resoluble con respecto a 9 = m”?(1) en el 
campo m(0) de valores m(6), 0 € O. Admitamos simplemente, que el vector 


go € Na Xd, --., - A) 
du 1 fu] 


pertenece al campo m(9) de todas X € 2”. 

Definición 1A. La estimación 0* = m”?!(g) se llama estimación por el 
método de momentos. 

Como antes, del teorema 3.1 se deduce que tales estimaciones 9* serán 
fuertemente conciliables. 
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Para que tenga lugar 0” a.n. es necesario exigir adicionalmente que la 
función m sea derivable, (e/00Po(dx) < oo, La afirmación acerca de la dis- 
tribución límite de 0” se“obtiene fácilmente con ayuda del teorema 3.2A. 

Ejemplo 2. Examinemos en calidad de (Py) lá familia de distribuciones 
normales 9, 2. Suponiendo g1(x) = x, ga(x) = x?, obtenemos las ecuiacio- 
nes siguientes para el método de momentos: 


R 
ms 1 


lal 
cuya solución es ái 


ee (07 =2 Dt =$ 


Ju] 


Proponemos al lector, en calidad de ejercicio, hallar, basándose en el méto- 
do de momentos, las estimaciones para todas las familias paramétricas ex- 
puestas en el $ 2, 

3. Método generalizado de momentos. Es posible la siguiente generali- 
zación del método de momentos, la cual amplía considerablemente la clase 
de estimaciones antes examinada. Limitémonos simplemente al caso del 
parámetro unidimensional 6. Examinemos la función de dos variables £(x, 
$) y supongamos que para toda distribución P la ecuación 


je(x, 0)Pldx) = [e(x 0)Polax) (6) 


es resoluble con respecto a 9 = G(P), de modo que la última igualdad, jun- 
to con (6), se convierta en la identidad 0 = G(Pp) cuando P = Pa 

Llamaremos estimación por el método generalizado de momentos, la 
estimación 


0” = G(P»,). 


Es evidente que, al igual que las estimaciones por el método de momen- 
tos, Éstas son estimaciones de sustitución. La investigación de las propieda- 
des de tales estimaciones es más difícil. De esto nos convenceremos en los 
párrafos sucesivos, puesto que resultará que una de las estimaciones de sus- 
titución que estudiaremos detalladamente será la estimación por el método 
generalizado de momentos. 


$ 5% Método de distancia mínima 


El método indicado en el título, al igual que el de momentos, es la realiza- 
ción del principio de sustitución y consiste en lo siguiente. Examinemos 
cualquier funcional de dos distribuciones d(P, Q), la cual posee la propie- 
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dad consistente en que como función de Q dicha funcional alcanza su valor 
mínimo cuando Q = P y d(P, Q) > d(P, P) cuando Q + P. Vamos a consi- 
derar la magnitud d(P, Q) (o bien a(P, Q) — d(P, P)) como la “distancia” 
entre Q y P, de modo que P se pueda determinar como el valor de Q con 
el que d(P, Q) alcanza su valor mínimo, 

Supongamos ahora que X € P, P se desconoce y pertenece a la familia 
2 Designemos por (Q)5 la distribución de %inmediata a la distribución 
Q en sentido de la distancia d, y supongamos que ella existe: 


así que (Q9= 0 5 Q € 2 

Definición 1. Se llama estimación de la distribución P conforme al valor 
mínimo de la distancia d, la distribución P* = (Px)p € 4 donde P; es, co- 
mo antes, la distribución empírica. 

Ahora bien, cuando II = P” = (P;)7se minimiza d(Kl, P,,). Si 2Fcoinci- 
de con el conjunto de todas las distribuciones, es evidente que P* = P/ 
- Supongamos ahora que 4= (Pp)eco es una familia paramétrica que 
satisface la condición siguiente: 


Ao P,, + Pp, cuando 0, X 0). 


En este caso la aplicación de 6—Po es biunivoca, por eso la distribución 
P € 2 permite restablecer únicamente el parámetro Ó con ed que P =P, 
Este hecho también puede expresarse de otra manera: existe la funcional 
G definida sobre 4 de tal modo que 0 = G(P.). 

Introduzcamos en este planteamiento la funcional G:(Q) = G((Q)57) 
que es, evidentemente, el valor de O € O con el que Po será la distribución 
inmediata a Q en sentido de la distancia d, así que 


GiP A) = G(Pa) = 9. (1) 


Definición 2. La estimación 0” = G¡(Pa) se denomina estimación del 
parámetro 0 por el valor mínimo de la distancia d. 
En otros términos, 0” es el valor de O con el que 


d(Pe., P,) = inf d(Po, P»). 


Es evidente que aquí otra vez tropezamos con el principio de sustitución. 
Esto se deduce de las definiciones y de (1). Claro está que la distancia d 
y la familia 4%4= ([P+) deben poseer propiedades capaces de asegurar la 
mensurabilidad de la aplicación de 2” en R*, que se realiza mediante la 
funcional G¡(P;), de modo que 0” sea una variable aleatoria. 

Ahora señalemos que en el caso paramétrico, al cumplirse la condición 
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(40), la contracción del método de sustitución (véanse (3.1) y (3.2) y el 
método de distancia mínima proporcionan la misma clase de estimaciones. 

En efecto, ya sabemos que las estimaciones de distancia mínimas 0” son 
las estimaciones por el método de sustitución, en este caso 0” € O. Suponga- 
mos ahora que 6” es la estimación por el método de sustitución 0” = G(Pa), 
donde G(P») = 6, 0” € 8, Determinemos la distancia d(P, Q) =|G(P) - 
— G(Q)|. Entonces, evidentemente, para 0 = 0” se alcanza 


inf d(Pa Pr) = infiG(P») — G(P5)| = inf]ó — G(P5)| = 0. 


También se puede notar que el método de momentos es mucho más estrecho 
que el de sustitución, puesto que es evidente que no cada funcional G tal 
que G(Pe) = 0, admite la representación de la forma 


GPo) = m”*(feb0Pr(ax)). 


Volvamos a las estimaciones de distancia mínima. Está claro que se pue- 
den señalar muchas distancias “racionales” d que pueden utilizarse para 
construir las estimaciones. Podríamos, en calidad de d, tomar la distancia 


a(P, Q) = supjFP(x) = Fo(x)| 


o bien 
d(P, Q) = [(Fp(x) — Fo) dFa(o), 


donde Fp(x) es la función de distribución que corresponde a la distribución 
P. Aqui serán estimaciones 0* por la distancia mínima los valores de 9 con 
los que se alcanza, respectivamente, 


inf sup| Fr (x) — Fa), (2) 


ed 2 
intro — Frcovaraco = in Y (Fr - 2). 


k=1 


En algunos problemas (compárese esto con [48)) se utilizan las llamadas 
estimaciones conforme al valor mínimo de y? (ji-cuadrado). Son las estima- 
ciones con arreglo al valor mínimo de la distancia 


, - Y (28) - Qu) 
PO0)=)>), 240-UNY. 
A(P, 0) 2 as 
donde A,, ..., A, es la partición de R (o bien de R” si x, son m- 


dimensionales) en r < «o intervalos, asi que |) A; = R. Ahora bien, la 
tal 
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estimación 6” conforme al valor mínimo de x? es el valor de 9 con el que 
se minimiza 


P r 

n (PA) — vi/n _ Y (MPAA) — vo? 0) 
Pe | Po(A;) Ae nPe(A;) 

Aquí »; = nPx(A;) es el número de observaciones x, que adquirieron los 

valores del intervalo A; La estadística en el segundo miembro (3) es la esta- 

dística x? que ya conocemos, de aquí precisamente procede la denomina- 

ción de dicha estimación. 

Más adelante veremos que existe tal funcional G, 6 = G(Ps) con la que 
las estimaciones según el principio de sustitución, llamadas estimaciones 
de verosimilitud máxima, serán las mejores en cierto sentido. En virtud 
de esta circunstancia, las estimaciones examinadas en este párrafo no tie- 
nen, hablando en general, mucha aplicación y por eso no merece la pena 
detenerse más en ellas. 


$ 6. Método de verosimilitud máxima 


Otra vez supongamos que Fes una familia paramétrica (Poleco. En lo 
sucesivo, con arreglo a esta familia admitiremos, por doquier donde sea 
necesario, que está cumplida la condición 


(40) Po, % Ps, cuando 90, 0, 


asi como la condición siguiente, que llamaremos condición (A,,). 
(As): en el espacio de fase [ 2"B;,) existe una medida o-finita y tal 
que todas las distribuciones P. € Ltienen, respecto a esta medida, la denst- 


dad fo(x) = dPo Qe), así que 


dy 
Po(B) = [Seldmtax). 


En este caso se dice que la medida y domina las distribuciones Pa 

Todas las familias de distribuciones examinadas en el $ 2 satisfacen, 
evidentemente, las condiciones (40) y (44). Para ciertas distribuciones, en 
calidad de y es necesario adoptar la medida de Lebesgue (distribuciones 
absolutamente continuas), y para otras, la medida de cálculo (distribucio- 
nes discretas). La medida de cálculo y se define así: «(B) = k, donde k 
es el número de puntos con coordenadas de valores enteros pertenecientes 
a B. 

A las primeras pertenecen las distribuciones normal $. 2, lognormal 
La,» las distribuciones T' y B, la distribución uniforme, la distribución 
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de Cauchy y las distribuciones de Student y de Fisher, y a las segundas, 
las distribuciones de Bernoulli y Poisson, así como las distribuciones dege- 
neradas en cero y polinomiales. La forma de densidades fo(x) de estas distri- 
buciones se da en el $ 2. En el caso discreto (cuando y es la medida de 
cálculo), la densidad fo(x) coincide con la probabilidad Po((x)) del suceso 
(x, = x); aquí fx] significa un conjunto compuesto por un solo punto 
x. También cabe señalar que, por ejemplo, la distribución normal 44,7 y 
la distribución de Poisson son recíprocamente singulares. En vez de la medi- 
da de Lebesgue y la medida de cálculo también podríamos tomar otras 
medidas, por ejemplo, la distribución normal bo, , y la distribución de Pois- 
son I,, respectivamente. Sin embargo, en este caso las densidades fo(x) se- 
rán, evidentemente, otras. Proponemos que las halle el propio lector. Los 
ejemplos citados más arriba se referían al caso 2Z= RoXZ= R"”, m > 1. 
En un espacio de fase arbitrario ( 27 My), la naturaleza de la medida y 
puede ser más compleja. 

La introducción de la condición (A, es cómoda, ante todo, por el hecho 
de que posteriormente nos permitirá examinar, desde un punto de vista 
único, dos tipos de distribuciones que son las más importantes en las aplica- 
ciones: absolutamente continuas y discretas. Desde el punto de vista de 
la condición (A,), entre dichas distribuciones no hay ninguna diferencia 
cualitativa. Además, deja de ser importante la dimensión del espacio de 
fase 

Convengamos en escribir 


Hx) = 8(x) ed. [u) 
si existe un conjunto 4, (4) = O tal que f(x) = g(x) para todos x € A. 
Es evidente que f(x) = g(x) es. lu] si y sólo si 
UG) - ¿00 uldx) =0. 


Lema 1. Sean f y g dos densidades de probabilidad con respecto a la 
medida y. Entonces 


VO) in fGo)u(dx) > Uco In gQ)u(dx), (1) 
si estas dos integrales son finitas. El signo de igualdad sólo es posible en 
el caso de f = g Cd. [pl. 

Aquí se vino al acuerdo de que las integrales en (1) sobre el conjunto 
A, en el que f(x) = O, equivalen a cero para cualquier g(x). 
Demostración. Es necesario demostrar que 


(vo In E pídx) < 0. 


Como In(l + x) < x para todos x > — 1, y el signo de igualdad sólo es 
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posíble cuando x = O, entonces 


n £40) - E — 80) _ 
ES ln e -1))< MEN ó 


y el signo de igualdad aquí sólo es Sei cuando f(x) = g(x). Por eso 


| $00 In a max) < teo ($e. g09 _ 1) utaso = 


' > ecc S (eoutaso =0. (2) 


Si la relación f = g c.d. [1] no tiene lugar, es evidente que el signo de desi- 
gualdad en (2) será estricto. «<a 
Examinemos ahora la familia 4= [Po)Joee que satisface las condicio- 
nes (40), (4,) y la “distancia” d(Poa Q) entre la distribución arbitraria Q 
y la distribución Pa € 4 
d(Pa Q) = - fInfo)Q(dx). (3) 


Definamos la funcional G(Q) como el valor de 6 con el que se alcanza 
mín d(Po Q) = dí(Paco» Q). 


Del lema 1 y la condición (Ap) se deduce que 
- Volnfen(dx) > - Yo. in foyu(dx), 
dí(Pa Po.) > dí(Po,, Po,) 
cuando 9 + 0y Esto significa que 


G(Po,) = 00. (4) 


Definición 1. Llámase estimación de máxima verosimilitud (e.v.m.) el 
valor de 6” = G(P;), o sea, el valor de 8 con el que se alcanza 


1áx fm SU Pi(as) = máx L Y lin f(x. (5) 


dw 1 


En lo sucesivo, el símbolo - sobre la designación de la estimación corres- 
ponderá siempre a la ev.m. 

De la definición y de (4) se deduce que la e.v.m. es una estimación de 
sustitución. Esta también puede ser considerada como la estimación con 
arreglo al valor minimo de la distancia (3). Esta distancia se halla íntima- 
mente ligada a la distancia de Kullback—-_Leibler entre las distribuciones, 
la cual desempeña un papel especial en la estadística matemática y será 
examinada más tarde, 


7—8030 
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En la definición 1, la familia (P»] se supone tal que Ó” sea una magni- 
tud aleatoria ?. 

En vista de que el valor máximo de cierta función puede alcanzarse 
en varios puntos, la e.v.m., hablando en general, no es única. El ejemplo 
respectivo será expuesto un poco más tarde. 

La denominación de dicha estimación está relacionada con la siguiente 
interpretación importante de la expresión 


y In fo(x) = IT] Ffeid, 
=) 1 


presente en ($). Para facilitar la exposición examinemos primero el caso 


A 
discreto cuando gs es la medida de cálculo. Entonces II fe(xp es la 
m1 

probabilidad de que aparezca el resultado X = (X,, ..., Xan). Por lo tanto, 
elegimos, en calidad de 6”, el valor del parámetro que maximiza esta proba- 
bilidad (pues las funciones y(6) > 0 y In y(0) alcanzan los valores extremos 
en los mismos puntos), 

Una interpretación análoga también tiene lugar en el caso general. En 
virtud de la independencia de x; tenemos, para los conjuntos 
B=B, Xx... XxX Bn Bi; € Ba 


Po(X € B) = J/00% du(dxr) .-. ] FoQin) dx»). (6) 
1 A 
Recordemos que x;, a distinción de los elementos de la muestra x;, designan 


las variables aleatorias, y el vector (X¡, ..., xn) se designa a través de x. 
Supongamos que g” es el producto directo múltiplo de n de las medidas 
”n 


u, así que p"(dx) = T] u(dx;). Entonces (6) significa que 
le1 
PAX € B)=| 11 So00)u"(ax) 
B mm 


ñ 
y, por consiguiente, la función fo(x) = ][ fe(xi) es la densidad de distribu- 
fu] 
ción del vector aleatorio X en 4Y”” respecto a la medida ¿”, 
[Sod(dx) = 1. 


Ahora bien, TI] fe(x)u"(dx) puede interpretarse (análogamente al caso 
iu) 


% O sea, $” realiza la aplicación medible de (2"", 9%) en (R*, B* ). 
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discreto) como la probabilidad de que la muestra adquiera el valor del para- 

lelepipedo formado por la intersección de las “franjas” (xi, xi + dxi), y la 

estimación de la máxima verosimilitud maximiza en 0 esta probabilidad. 
La función 


fAX) = 11 Sox) 


la1 


como función de 0 se llama función de verosimilitud, y la función 
L(X, 0) = In So(X) = Y Xi, 0), 
¿ut 


donde /(x, 6) = In fa(x), se denomina función logarítmica de verosimilitud. 

Esas mismas denominaciones de las funciones f y L también se utiliza- 
rán en el caso cuando como argumento, en vez de X, se halle el vector 
variable x. Ahora bien, la función de verosimilitud f+(x) es la función sobre 
2" x O que, para cada 9 € O, constituye la densidad de la probabilidad 
respecto a la medida yu”, así que la densidad f+x1) en 2 también es la fun- 
ción de verosimilitud para el caso n = 1. 

Por otro lado, f+(X), por ejemplo, en el caso Z'= R, puede considerarse 
como la función de verosimilitud de una muestra de volumen 1 en el caso 
multidimensional, cuando ¿27= R” = R”. 

Cabe señalar que la e.v.m. no depende absolutamente de la elección de 
la medida su, puesto que, al sustituir ¿ por cualquier medida equivalente 
dex) 


g1 la función de verosimilitud f(x) cambiará sólo en el factor di 


que no depende de 9. 

Las propiedades asintóticas de la e.v.m. podrían haber sido investigadas 
en el mismo camino que utilizamos a] estudiar las estimaciones por el méto- 
do de momentos. Precisamente allí hemos aprovechado el hecho de que 
las estimaciones conforme al método de momentos son estadísticas de tipo 
I. Esto nos permitió determinar directamente su conciliabilidad fuerte y 
su normalidad asintótica. Al cumplirse ciertas condiciones para fe(x), las 
ev.m. serán estadísticas de tipo 11, y esto también permite (véanse los teore- 
mas de los $$ 1.5, 1.8) determinar su conciliabilidad y su normalidad asintó- 
tica. No obstante, a nosotros nos será más cómodo estudiar directamente 
las propiedades de las e.v.d. (véanse los $9 23—-27), ya que esto permite 
realizar la investigación de un modo más económico y completo. 

Hallemos las funciones de verosimilitud y las e.v.m. para algunas distri- 
buciones expuestas en el $ 2. En cuanto a las funciones de verosimilitud 
suaves, la manera más fácil de hallar su valor máximo consiste en igualar 
a cero las primeras derivadas. 


7e 
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Ejemplo 1. La distribución normal de $. en 2"= R tiene una densi- 
dad de 


Q- ay? 
Pao) == € ze , -9<a<o,o0>0. 


Suponiendo, en este caso, que O = (a, o”), obtenemos 


1) n 


fx) = am) “o"texp( - 7240 Ñ a, 


ju] 


> RE 2 pe ay 
L(X, $ = 7 2 n In o a a)”. 


En vista de que In es una función monótona, como ya hemos señalado, 
f y L alcanzan su valor máximo con los mismos valores de 6. Tenemos 


oL 1 , 
a” 240 el 


ÓL n ] : 
Er Zar 


Resolviendo, para el punto del valor máximo, el sistema de ecuaciones 
OL 


obtenemos 


Es fácil comprobar que en este punto realmente se alcanza el valor máximo 
de L. 


Ejemplo 2. Examinemos la distribución P' con densidad 


val) = 5 Ale 70, a>0, 


en el caso cuando se conoce el parámetro A. Tenemos 


UX 0) =Mine-naTY+A-DY nx -a xa 
ii 


io] 
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== = — —Xn, € = VX. 


Ejemplo 3. Tenemos la distribución binomial B,. Aquí, para X E B, 
tenemos que P(x; = 1) = p P(x; = 0) = 1 — p, 


JAX) = pr(l — py”, 


donde y es el número de apariciones de 1 entre los elementos xXx), ..., Xa. 
Por lo tanto, 
L(X, p)= »Inp + (7 — ») In(l — p), 
AL ZA as 
óp p 1-p” n 


Proponemos al lector que procure, en forma de ejercicio, hallar las e.v.m. 
para todas las familias paramétricas expuestas en el $ 2, y que las compare 
con las estimaciones según el método de momentos. 

Ahora citaremos dos ejemplos de un tipo, algo diferente, cuando la fun- 
ción fa no es suave en Ó y cuando no son vigentes los métodos de búsqueda 
de la e.v.m., relacionados con la derivación. 

Ejemplo 4. Sea X € Us 1 +0 (distribución uniforme sobre [0, 1 + 6]). 


Aquí 
= 1, x € (9, ] + 0, 
diia (o x 410, 1+0, 
_41, 0 <xoo<xm< I|+0, 
JUN) = lo de lo contrario, 
donde x(1) < ... < X(n) es la serie variacional. En este ejemplo, la estima- 


ción de verosimilitud máxima no es única. En efecto, fi(X) = 1 (o sea, 
al valor máximo) para todos los valores de 6 que satisfagan las relaciones 
Xm) — 1<0 <x1. Como X(2) — Xq) < 1, tales 0 existen siempre. Podemos 
tomar, en particular, Ó” = xq, o bien 6* = Xq) — 1. 

Ejemplo 5. Sea X € Uva Aquí 


_ 07", x e (0, 8), 
Je) lo , x¿1[0, 4, 

a $07” si x, € [O, 6] para todos ¡= 1, 2, ..., n. 
SAX) lo. de lo contrario. 


Para obtener la forma de función f(X) como función de 0, escribamos 
la condición x; € [0, 0), i= 1, ..., n, en la forma equivalente 9 > máx 
X; = X(n). Así pues, fe(X) = O cuando 6 € [O, Xq), y Se(A) = 67” cuando 
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0 € (Xq), 00). El gráfico de esta función se muestra en la fig. 1. Aqui, al 
igual que en el ejemplo precedente, la función fa es discontinua. El valor 
máximo de fe se alcanza en el punto Ú” = Xq). 

Análogamente el lector puede hallar la ev.m. para un parámetro bidi- 
mensional desconocido (a, $) cuando X € U..s 


Fig. 1. 


Si fo(x) es ilimitada y los puntos xs, en los que fp(Xxs) = «o, dependen 
de 6, el método de verosimilitud máxima pierde en sumo grado su significa- 
do (aquí hemos venido al acuerdo de que fe(xs) = vo si fe(x)>+.o cuando 
x3x9 O cuando x1T.x9). Esto se puede entender con más facilidad en el ejem- 
plo del parámetro de desplazamiento cuando fe(x) = f(x — 0), f(x) > 0, 
J(0) = vo. Entonces fe(X) = o cuando O = X,, ..., Ó = X, y, por consi- 
guiente, 0” adquiere, por lo menos, » valores que coinciden con los elemen- 
tos de la muestra. La esencia de tal efecto consiste en que en este caso 
los “saltos” de f.(X) no dan la posibilidad de juzgar acerca de la posición 
del máximo ''verdadero” de fs(X), determinado por la influencia de toda 
la muestra (compárese esto con los 85 24, 25). Para obtener tal parámetro 
sería necesario “amortiguar” de algún modo los saltos de f+4(X). 

Las estimaciones de verosimilitud máxima poseen la siguiente propie- 
dad importante de invarianción con respecto a la sustitución del parámetro. 

Teorema 1. Supongamos que $10) es la función que realiza la aplicación 
biunivoca del conjunto O sobre el conjunto B. Entonces, si 0” es la e.v.m. 
segun la muestra X del parámetro 0, en este caso G* = B(6") será la ev.m. 
según la muestra X del parámetro f£ = f8(0) para la familia paramétrica 
(Qs = Polsce. donde 0(8) es la función inversa a (0). 

Omitimos la demostración del teorema, debido a su evidencia. 

Debemos señalar que ya hemos utilizado implícitamente el teorema 1 
en el ejemplo 1, donde en busca de la e.v.m para o? hemos hallado el valor 
máximo de L por o y luego hemos tomado (4?) = 9”). 

Otro ejemplo de uso de este teorema es la determinación de la ev.m. 
en el caso de X € L,..*, o sea, en el caso cuando la distribución de x; 
es lognormal: In x, € 9,2. Para tales x; la media a y la varianza d? son 
iguales respectivamente (véase el $ 2): 
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a=expla + 0/2], di = a*(e” — 1). 


Si designemos por á” y (d*y' las e.v.m. para a y d?, en virtud de la propiedad 
de invariación obtenemos, para la función (a, d?) = B(a, a”) (véase el ejem- 
plo 1), 
.“. o Ss? 2 e. no 2 4 en 
q =exp a E (4*Y = (ay (eS 1), 
ñ n 
a | 1 a 
donde Y = (Ys, ..., Ya), Yi = NX; Y E Ns SY = PS Y o - yy. 
¿=) ¿=1 
El cálculo aproximado de las e.v.m. en situaciones más complicadas se 
realiza en el $ 26. 
Para resumir este párrafo haremos la observación siguiente. Ya hemos dicho que ta e.v.m. 
es una estimación de sustitución. No obstante, dicha e.v.m. también puede considerarse, en 
ciertas condiciones, como estimación del método generalizado de momentos. En efecto, su- 


pongamos que la función f+(x) es derivable respecto a 6 y que es legítima la derivación respecto 
a esta variable bajo el signo integral en la igualdad 


Palbdalax) = 1. 


Entonces 
E _ [| 400) E 
0 = Vimeo = | FO Folx)Ju(dx) = 
LU) »e O] 


= ( OfeCduldx) = Mel (xi, 0). 
INT 
Ahora bien, si en (3.6) ponemos g2(x, 6) = 1'(x, 6), para la estimación por el método generaliza- 
do de momentos obtenemos la ecuación 
[10 DP) = [10% BPeax) = 0 
o bien, que es lo mismo, 
L (XA 6) =0. 


Esta es la ecuación para la ev.m. 


$ 7. Acerca de la comparación de las estimaciones 


Hemos visto que existen muchos enfoques naturales de obtención de las 
estimaciones. Cabe preguntar: ¿cómo comparar entre sí diferentes estima- 
ciones y qué estimaciones deben preferirse a otras? Destaquemos dos enfo- 
ques de comparación de las estimaciones: estándar (medio cuadrático o 
típico) y asintótico. 

El primero de ellos se basa en la comparación de las desviaciones están- 
dar. El segundo enfoque es aplicable solamente a las muestras de gran volu- 
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men, puesto que se funda en la comparación de las “dispersiones” de las 
distribuciones para (0” — 6) Vn en caso de grandes n. Como base para tal 
comparación sirve generalmente la forma de distribuciones límite para 
0” - O) Yn cuando n—oo (si éstas existen). Los teoremas límite respectivos 
nos dan las condiciones en las que la distribución (9” - 6)Yn para grandes 
n puede ser aproximada con ayuda de las distribuciones límite men- 
cionadas. 

En este párrafo se supone que las estimaciones se comparan en caso 
de una distribución desconocida cualquiera de la muestra P, pero 
registrada. 

1. Enfoque estándar. Caso unidimensional. Este enfoque se utiliza para 
examinar las estimaciones con arreglo a la muestra X de cualquier volumen 
registrado (no obligatoriamente grande). Consiste en la comparación de las 
desviaciones típicas M(6” — 0)?. 

Regla 1. Con arreglo al enfoque estándar, consideraremos que la estima- 
ción 6 es mejor que la 02 si 


M(0í — 6) < M(0% — 0). 


Está ampliamente difundida la idea de que el error estándar es la carac- 
terística numérica más conveniente de la exactitud de una estimación, aun- 
que desde muchos puntos de vista esta circunstancia es discutible: pues se 
puede comparar, digamos, las magnitudes M|0” — 8| que también describen 
los valores medios de las desviaciones de 9” de 9. 

La ventaja indudable de las características M(9” — 0)? consiste en el he- 
cho de que (9” — 0) es la función analítica de la diferencia 9* — 6. Esto 
hace más cómodos muchos estudios y permite aproximar, como veremos 
más tarde, los valores de M/(0” — 0) para las funciones suaves f. 

A la par con la desviación estándar para la descripción de las propieda- 
des de las estimaciones también se utiliza la magnitud de desplazamiento. 

Definición 1. Se llama desplazamiento de la estimación 0” la magnitud 


b = M0” - 0. 


La estimación 0”, para la cual 5h <= 0, se denomina no desplazada. 
La desviación estándar está relacionada con el desplazamiento y la va- 
rianza de la estimación por medio de la igualdad 


M(0" - 0) = DO” + B?, 
así que para las estimaciones no desplazadas, la desviación estándar coinci- 
de con la varianza. 
El carácter de no desplazamiento propiamente dicho es, evidentemente, 
una propiedad deseable de las estimaciones, puesto que significa que en 
la sucesión dad de estimaciones, el valor medio de éstas coincidirá con 
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el valor verdadero del parámetro. Si falta dicha propiedad, la estimación 
se llama desplazada. 

Ejemplo 1. Examinemos las tres estimaciones siguientes para el valor 
medio 9 = Mx, de la distribución P: 


=x,0=$,0= 00, (2) 


donde +” es la mediana muestral; Xx) X = 1, ..., an, los valores de la serie 
variacional, así que 7? = X(qn + 1/2 Si nesimpar, y * = y Paro + X(n/2 + 1)) 


si n es par (para n = 1, 2 todas las tres estimaciones coinciden). Todas las 
estimaciones son no desplazadas si la distribución P, de la que ha sido 
extraida la muestra, es simétrica con respecto a  0P((-oo, 
9 -— DO) = P((0 + £, c0)) para cualquier ? > 0). Esto se deduce del hecho de 
que la distribución de todas las tres estimaciones también será simétrica 
respecto a 6. Para x, la afirmación sobre el no desplazamiento de Mx = 9 
es evidente incluso sin la suposición acerca de la simetría. 

Calculemos las desviaciones estándar de las estimaciones (2). Para sim- 
plificar la exposición nos limitaremos al caso de P < Uj., »”7 = 3, para el 
cual las estimaciones (2) pasarán a 


01 “Xx, 9% =Xx0,» 0 


Tenemos 
1 


Dxi = [es - 1/2Ydx = 1/12, M(61 — 0)? = Dx = Dx1/3 = 1/36. 


Luego, en virtud de la definición de la mediana (n es impar) (¿” < x] = 
= (Fi) > 1/2] y, por lo tanto 


PE <x =PFE)>1/Y= Y PlnFi) =k). (3) 


ku (a +1)/2 
Para n = 3, 


3 
P(F300 = D=P(N bu<x)) = 0), 
PF) = 2) = 3PMM - Fo). 
La probabilidad P(¿” € (u, u + du)) se compone de las probabilidades de 


sucesos que tienen la forma (x, €(u, u + du)) (x2 < 4) (x3 > 4]. Como 
en total son posibles 6 de estas combinaciones, P(+* ¿(u, u + du)) = 
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= 6 WF(IA — F(u)idu y, por consiguiente, ¿? tiene una densidad igual 
a (esto también resulta de (3)) 


. 6ROINF(UYA — F(u)), 
donde F(u) = ¡ ftdt = P(x, < u). En el caso de P = Uo. 1 esta densidad 


será igual a 6xt — x) cuando .x €l0, 1], así que 
1 
M()Y = [sra = xXx = s(3 EE 5) E 
0 


A A 
D” = M(T5) (MY == VET de 


Nos queda hallar la varianza de la estimación 


9 = m4 X0) 
> 


Razonando análogamente a la precedente, no es difícil convencerse de que 
la probabilidad P(x1) €(u, 4 + du), xq) €(uv, v + du)), cuando u < y, es 
igual a 6/f(u/(v) (E(v) — F(v)Ydu du. Por eso para P = Ub : 


|] y 2 
M(03Y = | | ( 132) 6(v — u)du dv. 


El valor de esta integral es igual a 11/40 (el lector puede realizar los cálculos 
individualmente), por lo tanto, 


| Mis? mese = 11 
DO; = M(03Y — (M03)” = 20 34" 
Así pues, la estimación 03 resulta la mejor. Para otros valores de » y 
otras distribuciones P, la situación puede ser otra. Veremos, por ejemplo, 
que cuando P = 9, , la mejor estimación para a será 0; = X. 


Ejemplo 2. Estimaciones no desplazadas de la varianza. Examinemos 
la estimación para la varianza 


2_1 y 0. 2 
S 4 Sa X) An > xi 00", 


asi como la estimación 
si=l mx =L ) jxf+ (Mx)? — 25 Mx: 


(ambas según el principio de sustitución) en el caso cuando se conoce Mxi. 
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La estimación S? no está, evidentemente, desplazada. Al mismo tiempo 
Ss? => Y — xy! -— Nx -X>* Mx¡)* = 
LS du - Mx? - (A Mx) = SÍ (E Mx < Sí. 
n 
Ahora bien, la estimación S? está desplazada, 
MS? = Dx, — Dx = ( — Dx.. 


Esta relación muestra que también podemos examinar, en caso de Mx, des- 
conocida, la estimación de la varianza igual a 


AS Y, MS = Dx. 
sé 81 2 ¿0u— 29, MSÍ = Dxo 


Pasemos ahora al enfoque asintótico del problema de comparación de 
las estimaciones. En este caso la regla para la preferencia de las estimacio- 
nes se elige unívocamente. 

2. Enfoque asintótico. Caso unidimensional. Supongamos que se han 
dado dos estimaciones 9; y 02 tales que 


(61 — O vn “a 63 — Ovn 
01 02 


éQ (4) 


donde Q es cierta ley de distribución límite, la misma que para 0; y 6%, 
y 02 >01. Entonces, para grandes valores de n, las distribuciones 
(0 - 6) Vn/o, ¡ = 1, 2 serán próximas a Q, e indudablemente que la “dis- 
persión” de 03 alrededor de 9 será mayor que la “dispersión” de 0; y debe- 
mos preferir 6. 

Ahora bien, la esencia del enfoque asintótico consiste en la compara- 
ción de las distribuciones límites de las estimaciones. 

Ya hemos visto y también nos convenceremos de ello ulteriormente, que 
muchas estimaciones aparecidas de un modo natural, icluyendo las óptimas 
(de lo cual hablaremos posteriormente), son asintóticamente normales, o 
sea, para ellas es válida (4) cuando Q = €o 1. Esto nos permite enunciar 
la siguiente regla natural de comparación de las estimaciones a.n. 

Supongamos que se dan dos estimaciones a.n. 6; y 0% con los coeficien- 
tes 0Í y 03, respectivamente. 

Regla 2. La estimación 0 debe ser mejor que 03 si 01 < 03. 

En lo sucesivo, al utilizar estas y otras reglas, a la par con el término 
“'mejor” también haremos uso, donde sea necesario, de las palabras “no 
peor”, “peor”, *““'no mejor” que corresponderán a los signos de desigualdad 
<, >, > entre oí y di (o bien entre M(0] — 6)? y M(6Í — 0) en (0). Si 
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ai = al, diremos que estas estimaciones son asintóticamente equivalentes. 
El acuerdo propuesto es natural, y en las definiciones ulteriores no lo men- 
cionaremos cada vez y sólo nos limitaremos a difinir la relación “mejor” 
o las relaciones semejantes a ésta, 

Es preciso señalar que en la clase de estimaciones a.n., la minimalidad 
de la dispersión de 0” quiere decir que la magnitud 


lim P(09” - 8|< u/vn) 


será máxima para cada u. Esta circunstancia hace indiscutible la regla indi- 
cada para la comparación de las estimaciones a.n. 

El enfoque asintótico, a pesar de su naturalidad, tiene una desventaja 
considerable: sólo es aplicable a las estimaciones de gran volumen y única- 
mente en la clase de estimaciones a.n. 

Los dos enfoques señalados son, en cierto sentido, próximos uno a otro: 
en ambos casos el hecho se reduce a la comparación de las varianzas o 
de las magnitudes próximas a ellas. Por supuesto que la magnitud 0//n 
en (4), cuando Q = %71 puede distinguirse considerablemente de 
M(0" — 0». Sin embargo, los ejemplos que ilustran este hecho (proponemos 
al lector que los construya él mismo) tienen, por lo común, carácter arti- 
ficial. 

La exposición ulterior de este capítulo está relacionada, en mucho, con 
la construcción de las estimaciones, Óptimas para cada uno de los dos enfo- 
ques introducidos. 

Ejemplo 3. Sea X 6 TF... En el ejemplo 1 del 6 4 hemos mostrado 
que ambas estimaciones 


-=1/2 
aj =(%)7"? y a = E 21) 


son estimaciones conforme al método de momentos. Además, a también 
es ev.m. Luego hemos determinado que ambas estimaciones son asintótica- 


mente naturales, con coeficientes a? yz a”, respectivamente, y por lo tanto, 


la estimación oí es mejor que la a2 desde el punto de vista del enfoque 
asintótico. Ese mismo resultado, para n > 2, se obtiene cuando se trata 
del enfoque estándar. 

Ahora citaremos un ejemplo que muestra que según las propiedades 
de la distribución, una misma estimación puede ser mejor o peor que algu- 
na otra estimación registrada, 

Ejemplo 4. Examinemos el problema de la estimación 6 = Mx, si se 
sabe que X E P y que la distribución P es simétrica respecto al punto 
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0 (compárese con el ejemplo 1). En este caso la mediana de la distribución 
y coincide con 6. Examinemos también dos estimaciones para 6 (ambas 
según el principio de sustitución): la media 0; = xX y la mediana muestral 
03 = tf”. Supongamos, para precisar, que n es impar. Del corolario 2.2.1, 
cuando k = (n + 1)/2, se deduce que si la función de distribución FF es 
continuamente derivable en el punto 06 = f, entonces 


(E — Eva > HOR EG bo. /00)=F'(0. 


Con otras palabras, en este caso ¿” es la estimación a.n. con coeficiente 
0 = 1/(44=(1)). 

Por otro lado, la estimación a.n. de X tiene por coeficiente 0 = Dx;. 
Ahora bien, si 


j - $) dE) <p 


debemos preferir la estimación X. Si el signo de desigualdad es inverso, en- 
tonces debemos preferir 7*. Cabe señalar que los números ( (x — y) dF(x) 
y f(r) son características de distribución muy poco relacionadas entre sí. 

Examinemos un importante caso particular, cuando estimamos el pará.- 


metro a: por la muestra YX G %.... En este caso flor) = (1) = == y 
Xx 


así que 
=730>0%=0Í. 


Esto significa que en esta situación, la estadística X es mejor que la ¿”. 
Sin embargo, como hemos visto, no es difícil construir el ejemplo de la 
distribución para la cual será preferible la estadística f?”. 

El ejemplo de la mediana también es muy aleccionador en otro sentido. 
El mismo muestra que la velocidad de disminución del grado de dispersión 
de +” — $ puede ser cualquiera. Para cerciorarse de esto, basta con recurrir 
a la observaicón 2.2.1. En condiciones de dicha observación, como factor 
normalizador que asegura la convergencia de +* — $ hacia la distribución 
límite sirve la magnitud n'/47, donde y es un número no negativo cualquie- 
ra (véase (2.12)). El factor Vn corresponde solamente a las distribuciones 
suaves. 

Ahora presentaremos un experimento real con la muestra de volumen 
n = 101 de la población normal Ho, y veremos *”? cómo los valores de X 


La muestra X ha sido construida con ayuda de los números aleatorios tomados de 
las tablas (8) (se han utilizado los primeros 101 uúmeros en la página ). 
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y $” aproximan el O cuando 1 = 11, 21, 51, 101. Los datos obtenidos se 
ofrecen en la tabla siguiente: 


a 11 21 s1 101 
Rx 0,283  -0,254  -0,148  -—0,072 
r -029 0,292  -—0/078  -0,0%44 


E A a o a RE BG 

En este ejemplo, la estimación /* para n = $1, 101 se comporta mejor, 
lo cual es resultado de la desviación aleatoria. Para convencerse de la venta- 
ja de x sería necesario realizar muchos experimentos de este tipo, 

Veamos ahora que aspecto tienen los dos enfoques (anteriormente enun- 
ciados) de la comparación de las estimaciones en el caso multidimensional, 
cuando $ es el vector (6;, ..., 0x). 

3. Enfoques estándar y asintótico en el caso multidimensional. Como 
antes, utilizaremos el enfoque asintótico sólo en la clase de estimaciones 
a.n. En este caso el hecho se reduce por completo a la comparación de 
las distribuciones normales multidimensionales (distribuciones límites para 
(6” — 8)Vn) que se describen totalmente por medio de la matriz de segundos 
momentos o” (véase, por ejemplo, el teorema 3.2A). 

Si se examina el enfoque estándar de la comparación de las distribucio- 
nes exactas de 0”, también todo se reduce a la posibilidad de comparar 
dos distribuciones en R*, basándose en el conocimiento de los momentos 
(0” — (0) de segundo orden. Ahora bien, en ambos casos debemos saber 
comparar, según el “grado de dispersión”, las matrices de los momentos 
de segundo orden, 

Examinemos los métodos de comparación más naturales. Supongamos 
que Q, y Q» son dos distribuciones aleatorias en R*. Designemos por ¿1 
y Ez cualesquiera vectores aleatorios que poseen estas distribuciones: £; € 
e0. 

Definición 2, Diremos que la dispersión estándar de la distribución Q: 
alrededor del punto a; € R* no es mayor que la dispersión Q» si para todo 
vector a = (81, ..., ax), 


M(t1 - a, a < M(é2 — a, ay, (5) 


b 
donde (x, a) = Y xa; es el producto escalar. 
it 


Diremos que la dispersión para Q, es menor que para Q, si en (5) tiene 
lugar el signo de desigualdad estricta al menos para un q. 

Sia = ME; = ME,, la igualdad (5) significa que por cualquier dirección 
de a la varianza de la distribución Q, (o sea, la varianza de la proyección 
de £, sobre a) no supera la magnitud igual para Q» 
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Si d?= lat] es la matriz de segundos momentos de Q,, / = 1, 2, enton- 


ces, abriendo paréntesis en (5) para a = 0, obtenemos, para todos a), ..., 
Ok 
k k 
Y» diPaa, < Y, dif aa). (6) 
dj) tel 


En el lenguaje de las matrices designaremos esta relación por 
dí < dí, (7) 


que significa la definición no negativa de la matriz dí — dl. 

Ahora bien, la dispersión estándar de Q, alrededor del cero no supera 
tal dispersión para Q si y sólo si para las matrices de los momentos de 
segundo orden tienen lugar las desigualdades (6) y (?). 

Las reglas de preferencia de las estimaciones en el caso multidimensio- 
nal pueden enunciarse del modo siguiente. 

Enfoque estándar: la estimación 03 es mejor que la 02 si la dispersión 
estándar de 9; alrededor del punto 6 es menor que la misma magnitud para 
01. 

Si dies la matriz de segundos momentos 0; — 6, la afirmación que dice 
que “la estimación 0] es mejor que la 07” significa que di < di. 

Enfoque asintótico: la estimación 6; es mejor que la 63 si la dispersión 
estándar cerca del cero de la distribución límite para (0 — 0)V/n es menor 
que la misma magnitud para (03 — 0)vn. 

En otros términos, si (0; — 6) Vn € Yo..?, entonces la afirmación de 
que “la estimación 0 es mejor que la 03” quiere decir que dí < 0. 

Se puede mostrar que si 9í y 62 son dos estimaciones a.n. y 01 es mejor 
que 62, entonces 


Jim, P((01 — O)Vn € B)> lim P((9 — 6)Vn € B) (8) 


an o 


para cualquier elipsoide central B. 

Vemos que en ambos casos la comparación de las estimaciones se reduce 
al establecimiento de las igualdades para las matrices de los momentos de 
segundo orden. Cierta diferencia consiste en que en el primer caso los mo- 
mentos no son obligatoriamente centrales. 

Establezcamos ahora ciertas relaciones equivalentes a (6), (7). 


k 
” Para abreviar conveugamos en llamar efipsoide en R* el dominio Y] dyxx € c, y 
k dl Ju1 
elipse, la superficie $; dyxx; = e. 


l, Ju) 
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Pongamos 
v(9) = M(0” - 0) V(0* — 0) 


y designemos por BM, el conjunto de todas las matrices Y = [u¡¡] definidas 
no negativamente, Si |d,] es la matriz de segundos momentos 0” — 6, enton- 
ces, evidentemente, v(0”) = 5 uydj. 
Lema 1. di <dl si y sólo si v(0) < v(03) para cualesquier V € Ba. 
Demostración. En una dirección la afirmación es evidente, ya que la 
matriz Va, = la,a¡Je B., y para tal matriz, 


va(9) = M(8 — 0) Va(0) — 6) = Xarajdl) 


(véase (6)). 

Para demostrar la afirmación en dirección contraria, señalemos que el 
orden parcial basado en las desigualdades (5) es invariante respecto a los 
ejes de revolución de las coordenadas. Es decir, si C'es la matriz de transfor- 
mación ortogonal y 9í es mejor que 03 para el parámetro 0, entonces 0; C 
es mejor que 03C para el parámetro 0C. Esto se deduce de las igualdades 


(63C — 6C, a) = (67 - NC, a) = (6 - 6, ac”) 


y de la definición 2. 
Supongamos ahora que dí < dl, o sea, 


ad" aa, < ZalP aa. (9) 


Esto quiere decir que v(91) < v(62) para las matrices V que tienen la forma 
Y, = haajl y, por lo tanto, también para las matrices diagonales Vaig ED, , 
puesto que estas últimas son representables en forma de la suma de X matri- 
ces que tienen la forma Y, Supongamos ahora que V es una matriz arbitra- 
ria de WM, y C es una transformación ortogonal tal que C7VC = Vias. 
Entonces 


v(91) = M(9 — 0) V (9 — 0)” = M(6í — 0)C Vai C*(05 — 0)”. 


De las dos observaciones hechas anteriormente y de (9) se deduce que el 
segundo miembro de esta igualdad es menor que 


M(03 — 0)CVsiagC* (03 — 0)” = M(O3 — 0) V (03 — 0) = v(63). a 


Existe también otro método de comparar la dispersión (véase [37]) que, 
sin embargo, supone que ambas distribuciones Q, y Q, no están degenera- 
das en R* y tienen una media nula. En este caso las matrices de los segun- 
dos momentos centrales df quedarán definidas positivamente y para ellas 
existen las inversas Ar = (df) ”* 

Supongamos que d” es la matriz de segundos momentos de la distribu- 
ción Q, y que A = (d?)7?. 
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Definición 3. Se llama elipsoide de dispersión de la distribución Q el 
elipsoide 


IAS k+2 


que entre todos los elipsoides se destaca unívocamente por su propiedad 
siguiente: si se examina la distribución uniforme U (o sea, la distribución 
en R* con densidad constante dentro del elipsoide y con densidad nula 
fuera de éste), en este elipsoide, los primeros y segundos momentos de Q 
y de U coinciden (véase [25], p.333). 

Lema 2. Supongamos que las matrices df | = 1, 2, no han sido degene- 
radas. La dispersión estándar de Q, alrededor del cero no es mayor que 
la dispersión de Q, sí y sólo si el elipsoide de dispersión para Q, se encuen- 
tra en el elipsoide para Q». 

Demostración. Supongamos que la elipse 14117 = 1 se encuentra en el 
interior de 14217 = 1. Como es sabido, existe la transformación lineal no 
degenerada f = ul que transfiere la elipse 14,17 = 1 a la esfera unitaria 
Si, y la elipse 1421? = 1, a la elipse S2 con los ejes, principales en dirección 
de los ejes de coordenadas. Esto quiere decir que, As = LA¡L' = E (matriz 
unidad), A 2 Mm LA” = diag(AÍ, . ,AD,O0<NS Ll j> 1, , K. Como 
A '=E Az?! = diag ?, . E 2, la elipse 147 17 = seri una lover 
sión respecto a la esfera ntaña Si de la elipse S2 y, por consiguiente, se 
encontrará en S,. Como Az ' = (17)"*42£ 7 !, entonces, efectuando la 
transformación “inversa” u = ¿L”, obtenemos que la elipse ¿47 '1? = 
= (du = 1 se halla fuera de 147 *17 = rdir" = 1. Evidentemente, la misma 
relación es válida para las elipses 1dit7 a cy 1dit7 = c. Pero esto significa 
que la igualdad tdit7 = c conduce a 1dít7 =c < tditT. La afirmación en 
dirección contraria se muestra exactamente de la misma manera. < 

Ahora es importante señalar que, a distinción del caso unidimensional, 
la comparación de las dispersiones con ayuda de las matrices de segundos 
momentos sólo establece el orden parcial en el O de todas las distri- 
buciones. Por ejemplo, las matrices d, = (E 9) Y da = . 5) 
ni mejor ni peor una que otra, ya que para el vector a = (1, 0), (6) es válida, 
y para el vector a = (0, 1), la desigualdad será inversa. Esto constituye una 
incomodidad considerable del orden introducido, aunque éste, como tal, 
no suscita dudas. 

Podemos hacer muchas estimaciones (o muchas distribuciones) bien or- 
denadas, si comparamos, digamos, M|0* — 6|?, donde !-| es la norma euclí- 
dea en R*, así que 


no son 


k 
Mj0” - 67] = M 3 (0; — 0,). (10) 
fa] 


8—8030 
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Tal método de ordenación ya es discutible, puesto que en distintas circuns- 
tancias, la precisión en diversas direcciones puede apreciarse de modo dife- 
rente. Para considerar de algún modo esta circunstancia, se puede, en 
calidad de generalización, tener en cuenta la medida de exactitud 


v(0*) = M(O* - 9) V(0" - 0, 


donde V es la matriz definida no negativamente (el caso (10) corresponde 
a Y = E). 

Del lema 1 se deduce que si la dispersión de 61 alrededor de É es menor 
que la dispersión de 62, entonces v(01) < v(62). El caso inverso, hablando 
en general, es incorrecto: el cumplimiento de la desigualdad v(01) < v(62) 
para una matriz cualquiera Y (el orden completo propuesto más arriba. se 
basa en una matriz registrada) no significa aún que la dispersión de 6; alre- 
dedor de O es menor que la dispersión de 6. 

Pasemos ahora a examinar un importante caso paramétrico, cuando se 
estiman los parámetros desconocidos de las distribuciones de familias para- 
métricas. 


S 8. Comparación de las estimaciones en el caso paramétrico, 
Estimaciones eficientes 


En el párrafo precedente hemos destacado dos enfoques (estándar y asintó- 
tico) de la comparación de la calidad de las estimaciones. Introduzcamos 
ahora algunos conceptos relacionados con estos enfoques en el caso para- 
métrico, cuando la distribución de la muestra X' pertenece a cierta familia 
P2= (Po). Al igual que antes, con los símbolos Mo y De designamos la 
esperanza matemática y la varianza de la distribución Pp. 

1. Caso unidimensional. Recordemos que de acuerdo con el enfoque 
estándar debemos decir qu 6 es mejor que 02 si 


du0) = Mel(0 — 0) < Mo(63 — 0) = d26). (1) 

Pero en el caso paramétrico, dX8), 1 = 1, 2, son las funciones de 8 y 
debemos decir “'9; es mejor que 6 en el punto 0" si d,(0) < d2(0). 

Análogamente sucede al utilizar el enfoque asintótico cuando se compa- 

ran las estimaciones a.n. para grandes volúmenes de la muestra rn, confron- 


tando sus distribuciones límites. La estimación 0 se considera mejor que 
la 63 en el punto 0, si en las relaciones 


(07 - OVn E %ovim 1=1, 2, (2) 
es justa 01(0) < 02(0)”. 


*) Ya hemos señalado que en le amplia clase de casos d9) = nm” to + o(n”?). Sin embar- 
go, esto no se deduce de las definiciones de los números d(6) y «Ag. 
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Ahora bien, en ambos casos el problema de comparación de las estima- 
ciones conduce al asunto de comparación de las funciones, digamos, d:(0), 
9 = O. Este conjunto no está ordenado, y en la clase de todas las estimacio- 
nes es posible introducir un orden parcial del modo siguiente. 

Regla 1. La estimación 6; es mejor que la 63 si 4,(9) < d2(6) (o, respecti- 
vamente, 01(0) < 02(6)) para todos € € € y al menos para un Ó se cumple 
la desigualdad estricta d,(0) < da(0). 

Si la estimación 0” es tal que para ella existe la estimación 06; que es 
mejor que 6”, en estos casos se dice que 9” es una estimación inadmisible. 

Expongamos primeramente el enfoque estándar en el caso unidimensio- 
nal y examinemos las posibilidades aquí existentes de comparar las estima- 
ciones. Conviene señalar, ante todo, que desde el punto de vista de la 
definición citada no existe, hablando en general, la mejor estimación. O 
sea, no existe una estimación 0” tal que para toda otra estimación 0 sea 
válida la desigualdad d(0) <4,(06), donde d2,(0) está definida en (1), y d(0) 
corresponde a 6”. 

En efecto, si se toma la estimación 09; = 8, = const € O, entonces 
dH0) = M e(0 — 6)? = 0 cuando 0 = 0, y para la mejor estimación 0” (si 
tal estimación existiera) se cumplirá d*(6,) = My,(0* — 61)? = 0. Como 0, 
es arbitrario, d?(0) = 0. Pero esto es posible únicamente en el caso “degene- 
rado”, cuando las observaciones determinan uníivocamente el valor del pa- 
rámetro 6. Por ejemplo, cuando Y € l¿ o bien YX € Use. y O = Íl, 
O 
Ahora bien, la envolvente inferior de todas las funciones d*(0) es igual 
á cero, pero en el caso “no degenerado” esta función no se realiza para 
ninguna función 0”. 

El problema puede ser más interesante si se buscan las mejores estima- 
ciones $” en unas u otras subclases de estimaciones que se eligen de un 
modo suficientemente racional. Uno de los métodos posibles de destacar 
tales subclases consiste en registrar el desplazamiento b(0). 

Definición 1. La estimación $7 € K se denomina eficiente en la clase 
K si para cualquier otra estimación 0* € k Mo(9% — 0)? < Ms(0" — 0)? cuan- 
do todos 9 € 6. 

La clase Ko de las estimaciones no desplazadas desempeña un papel 
especial, o sea, la clase de las estimaciones para las cuales b(6) = 0. 

Las estimaciones eficientes en la clase Ko = (0”:Mo00” = 9] de estima- 
ciones no desplazadas se llaman simplemente eficientes. De suerte que las 
estimaciones eficientes no son sino estimaciones no desplazadas con varian- 
za mínima. 

Como ya hemos señalado, la propiedad de carácter no desplazado es, 
como tal, indudablemente deseable, ya que significa la falta del error siste- 
mático al utilizar la estimación. 

La cuestión acerca de la existencia de las estimaciones con el desplaza- 
g* 


116 CAP. 2 TEORÍA DB ESTIMACIÓN DE PARÁMETROS 


miento dado b(0) (en particular, de las estimaciones no desplazadas) se re- 
duce a la resolubilidad de la ecuación integral con respecto a g(x): 


¡ g00P4(X € dx) = 6 + b(0), (3) 
donde g(X) = 0”; el primer miembro de esta ecuación es Med”. 
Si está cumplida la condición (4,) y fo) = Y fol) es la función 
de verosimilitud, la ecuación toma la forma el 
| ECeQ)u"(dx) = 0 + b(0). (4) 


Cabe señalar que la solución (4) para 5(0) dada no siempre existe ni mucho 
menos y, en particular, no para todas las familas (Pe) existen las estimacio- 
nes no desplazadas del parámetro 0. Examinemos, por ejemplo, el esquema 
de Bernoulli con un parámetro desconocido p (la probabilidad del caso 
es (xi = 1)) y Supongamos que nos hace falta estimar el parámetro 
0 = p(p), donde p es una función dada. Entonces la ecuación (4) para la 
estimación no desplazada tiene la forma 


Y eglYo(0) =0 


o bien, que es lo mismo, 


PA - py = ep), (5) 
donde G(k) = Y, g(x) y Ax es el conjunto de puntos x cuyas k coordena- 


XEÁs 
das son iguales a 1. Pero el primer miembro de (5) es el polinomio de p 
de grado n. Esto significa que la ecuación (5) sólo puede ser resuelta si 
e(p) es un polinomio de grado no mayor de n. 

Examinemos ahora la clase K, de estimaciones con desplazamiento 
registrado b(0) y supongamos que existe una estimación que es eficiente 
en K». 

Teorema 1. La estimación eficiente en Kp es única con una exactitud 
de hasta los valores sobre el conjunto A C 2” para el cual Py(A) = 0 
cuando todos 0 € O. 


Demostración. Sean 65, 61 dos estimaciones eficientes en K,. Desig- 
nemos 


D = Do0;, Ay = 60; - 0, 3% 0 1. 


eS (M0 Y _ 4+a7 
2 2 2 


20 FAL = 8-0, do Ar = 00" — 6), 


Como 


(6) 
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entonces 
Mo(0* - 0) + 7 Mo(6" — 01)? = D + b*0). (7) 


Pero 0” € Kj y, por lo tanto, Me(0” — 6)? > D + b*(0). En este caso, de 
(7) se deduce que 


Mo(9 — 01) < O, 


6% = 0 05. ”. a 

El análisis realizado del problema de comparación de las estimaciones 
se refería al enfoque estándar. A este último también se refiere, en realidad, 
lo siguiente 

Definición 2. La estimación 9¡ € K se denomina asintóticamente eficien- 
fe (a.e.) en K si cuando n—«o, para toda otra estimación 0” de K y para 
cada 0 € O, 


Pasemos ahora al enfoque asintótico con el cual la definición 2 también 
está relacionada estrechamente. Aquí, como antes, el problema consiste en 
la comparación de las funciones (09) que caracterizan la distribución nor- 
mal límite, pero la cuestión en general se simplifica un poco. Esto se debe, 
ante todo, a que la comparación se realiza solamente en la clase de estima- 
ciones a.n., que en lo sucesivo la designaremos por Xs. Podemos contraer 
un poco esta clase Ke sin empobrecerla considerablemente. Así pues, exa- 
minaremos la clase Ka 2 € Ka de las estimaciones a.n. 6” que poseen la 
propiedad de que para ellas la convergencia 


(0*” —- OVn € %o 0) 
ocurre junto con los dos primeros momentos: 
Mo(6* — 0) V/n — 0, Mo(0” — On — 00). (9) 


Señalemos que la primera de estas dos relaciones se obtiene fácilmente de 


2 Es válida la siguiente afirmación que generaliza, en cierto sentido, el teorema 1. Si 
hh es eficiente en ki y la estimación 0* es arbitraria en ko, de modo que h = DVD" «£ 1, 
entonces el coeficiente de correlación q (08, 0%) entre las estimaciones 0 y 0” es igual a 


e(03, 9% = vh. 


El lector puede realizar individualmente la demostración, después de convencerse de que 
cuando q(0%, 0*) »s VÁ y al elegir correspondiente a, la estimación 


6% = (1 -— m0 + a9”€ XK, 
satisfará la desigualdad Ds0i < Da0ó que contradice la eficacia de 08 
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la segunda con ayuda del teorema de continuidad para los momentos 
($ 1.5). 

La contracción de K4 hasta la clase Ks,2 empobrece poco la primera 
de estas clases por dos causas. En primer lugar, las estimaciones a.n. en 
las que (9) no se cumple, prácticamente no existen (hemos señalado que 
para esto son necesarias, por regla general, construcciones artificiales). En 
segundo lugar, para 6” € K, conforme al lema de Fatou, 

lím inf Mon(0* — 0) > 0*(6) 


no 


(se trata de las integrales de las funciones no negativas), así que 
Mon(6* — 6y?, para grandes valores de n puede distinguirse de c*(6) única- 
mente hacia el lado de los valores más grandes. Pero es poco probable que 
las estimaciones con tales propiedades puedan competir con las estimacio- 
nes para las cuales (9) ha sido cumplida. 

Ahora bien, cuando se trata del enfoque asintótico, en calidad de clase 
de estimaciones a.n., en la cual se realiza la comparación, podernos conside- 
rar la clase Ko 2. Esta será más cómoda para nosotros. 

Sea K cierta clase de estimaciones, tal que K € Ks.2. Entonces la si- 
guiente definición será equivalente a la definición 2. 

Definición 3. La estimación 0; € K se llama asintóticamente eficiente 
en K, si para cualquier otra estimación 0” € K 


ai(6) < 0*(0) (10) 


cuando todos 6 € 9, donde 0*(0) y ai(0) son los coeficientes de dispersión 
de 0” y 0¡, respectivamente. 

La equivalencia de las definiciones se deduce del hecho de que para 
0" €Ko.2 


Mo(0” — 0Y = 0 (1 + rr(0)), rn(9) — O cuando n — oo, 


En este caso la relación (8) que significa que 
Moe(0i — 0? < Mot0” — (1 + rí(0)), ra(0) — O, 


para cualquier 0” €K es, evidentemente, equivalente a la desigualdad 
(10). <a 

En el enfoque asintótico, cierta simplificación del problema de compa- 
ración (anteriormente recordada) consiste en que aquí comparamos tan só- 
lo las varianzas de las leyes del límite. Aquí desaparece la importancia del 
desplazamiento b(0) de las estimaciones, puesto que en la clase Xx 2, en 
virtud de (9) se cumple la relación b(9) = o(1/V2) que significa “casi la 
falta de desplazamiento” de las estimaciones o la “'despreciabilidad asintóti- 
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ca” del desplazamiento desde el punto de vista de las relaciones (2). 
Análogamente al teorema | puede ser obtenido 
El teorema 2. Sea K € Kg 2. Entonces, si 01 y 02 son dos estimaciones 


ae. en K, tales que > (01 + 03) € K, éstas coinciden asintóticamente, o sea, 
Vn(9i — 03) 3 0, Mo[Vn(6í — 63)? 0. 


Demostración. Basta determinar la segunda relación, ya que la primera 
se deduce de ella. Sea 


Mn = Mon(67 — 0), Ay = 0-6, 6" 88, [=1,2, 


Entonces, en virtud de (6) obtenemos 


Moent6* — 0y +3 Man(0— 037 = (Min + Ma.n)/2. (11) 


Pero 6” € K y, por consiguiente, después de pasar al límite, en la última 
igualdad obtenemos, en virtud de la eficacia asintótica de 6, 


Km Men(05 — 63 <0. < 
no 
Las consideraciones expuestas anteriormente contenían sólo una de las 
vías posibles de separar las estimaciones (en nuestro caso, las estimaciones 
eficientes) que, siguiendo varios razonamientos naturales, han de preferirse 
a otras. No obstante, son posibles, desde luego, también otros enfoques 
(recuérdese que teníamos que comparar los elementos no ordenados, o sea, 
las funciones d(8) o 0(0)). Puesto que, hablando en general, no existen esti- 
maciones con valores mínimos posibles de d(0) para cada 0, entonces se 
pueden comparar, digamos, los valores medios fat) att) dt, donde 


a(e) > 0, ¡ g(t) dt = 1, o los valores máximos máx d(6). Esto son los méto- 


dos de reglamentación de los conjuntos de todas las estimaciones. 

Más tarde llamaremos bayesiano el primero de estos dos métodos, y 
minimax, el segundo. Las estimaciones óptimas bayesianas y minimax serán 
examinadas en el $ 11, y las estimaciones eficientes, en los párrafos ulte- 
riores. 

El problema de elección de las estimaciones será examinado más detalla- 
damente en el capitulo $. 

2. Caso multidimensional. Examinemos ahora el caso cuando 6 y 0” 
son vectores de R*, Aquí, el problema de comparación de las estimaciones 
es más difícil. El hecho es que en el caso multidimensional teniamos que 
introducir un orden parcial ya para comparar las estimaciones cuando 4 
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ha sido registrado. Para comparar las estimaciones en todo el conjunto 6, 
al igual que en el caso unidimensional, también es necesario introducir un 
orden parcial, pero ya “en otra dirección” puesto que la comparación se 
basa en la desviación estándar, que es una función de dos variables: 0 y 
del vector a, sobre el cual se proyecta la desviación 0” — 0). 

Las mejores estimaciones en “ambas direcciones” constituyen precisa- 
mente el objeto de las definiciones siguientes. 

Definición 4. La estimación 0ó es eficiente en la clase K si para cualquier 
estimación 0* de K la dispersión estándar de 0” alrededor de 6 para todos 
0 € O no es menor que la dispersión de 8%. 

Esta definición es equivalente a la siguiente. 

La estimación vectorial 6 del parámetro 0 es eficiente en K si para cual- 
quier vector a la estimación a = (00, a) es la estimación eficiente del pará- 
metro escalar « = (0, a) en la clase de estimaciones a* = (0”, a), 0” €K, 
o sea, para todos 9€ 0, acR*, 0” EK, 


Mo(65 — 0, ay? < Mol0* — 6, ay. (12) 


Como ya hemos visto, esta desigualdad se escribe de un modo equiva- 
lente en la forma d¿(0) < d*(0) o bien 


245 (6)a,a, < 2 due, 
y] (A 


para todos 0€ 9, ae R*, donde d*(6) = [a,(8)] y a$(8) = laf'(6)] son las 
matrices de segundos momentos 0” — 0 y 97 — 0, respectivamente. 

Las estimaciones eficientes en la clase Ko de las estimaciones no despla- 
zadas se llaman simplemente eficientes. 

En vista de que la definición (12) de la eficacia se construye a base 
de la utilización del caso unidimensional, estonces, mediante el teorema 
l no es difícil establecer que la estimación eficiente en la clase Ko de estima- 
ciones, con un desplazamiento b(0) = M0” — 0 registrado, es la única. 

La definición de las estimaciones a.e. en el caso multidimensional es 
análoga a las definiciones 2 y 3. 

Definición S. La estimación vectorial 0; del parámetro 0 es asintótica- 
mente eficiente en K si para cualquier vector a la estimación (0, a) es la 
estimación a.e. del parámetro escalar a: = (9, a) en la clase de estimaciones 
a =(0, a), 0 "e K. 

En otros términos (véase el $ 7), la dispersión estándar de la distribución 
límite (01 — 6)Yn, para la estimación a.e. es mínima. Esto, a su vez, significa 
que para cualesquiera 0” € K, ae R*, 0 € O se cumple o1(9) < a*(6), o bien 


20 (O)a,a, < 2000, 
eS » 
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donde 0*(9) = loy(0)), o3(6) = lo (8)| son, respectivamente, las matrices 
de segundos momentos de las distribuciones límite (9* — 4)Vn y (05 — 6) vn. 

Del párrafo precedente se puede sacar la conclusión de que el conjunto 
de estimaciones en el caso multidimensional, para 9 registrado, puede ser 
ordenado si la calidad de la estimación se mide en cantidad (durante el 
enfoque estándar) 


v(9”) = Mol(0” — 6) V(0” — O mm uí0”, 0, (13) 


donde V es la matriz definida no negativamente. La cantidad análoga rela- 
cionada con la matriz de segundos momentos de la distribución norma) 
límite, también se puede examinar durante el enfoque asintótico en la clase 
Ks 2. 

Continuando el avance por este camino, es posible ordenar bien el con- 
junto de todas las estimaciones incluso en todo el conjunto €. A saber, 
se pueden comparar los valores medios 


jul0”, Dala (0) >0, jad = 1, 


o los valores máximos máx v(0”, r) de las cantidades v(0”- 6) definidas 
S€ 


en (13). 

Si resulta que la estimación que es la mejor en tal enfoque, continúa 
siendo la mejor para cualquier matriz V definida no negativamente, esto 
significará, en virtud del lema 7.1, que esta estimación también será la me- 
jor desde el punto de vista del orden parcial establecido en el $ 7 (o sea, 
la desviación estándar mediada será la mínima en cualquier dirección). 

Para construir las estimaciones óptimas en sentido de las definiciones 
examinadas en este párrafo, necesitaremos los conceptos y las propiedades 
de las esperanzas matemáticas condicionales y de las estadísticas sufi- 
cientes. 


$ 9, Esperanzas matemáticas condicionales 


En este párrafo recordaremos la definición de las esperanzas matemáticas 
condicionales (e.m.c) y sus propiedades principales. Véase una exposición 
más completa en el suplemento III, así como en [11], (38[, [30], (61) y [84]. 
1, Definición de la e.m.c. Sean E y y dos variables aleatorias dadas en 
el espacio probabilístico (Q, Y, P). 
La esperanza matemática condicional M(£/B) de la variable aleatoria 
t respecto al suceso B P(B) > O, se define por la igualdad 


MB) A 1) 
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donde M(£; B) = ¡eE = M(tla), la = In(w) es una variable aleatoria 


igual al indicador del conjunto B. 
Admitamos que É£ y y son independientes, B = (37 = x)] y P(B) > 0. En- 
tonces, para cualquier función medible p(x, y) conforme a (1), 


Za Mo MMoueo - Mo Mia _ 
Mob 1/1 =x] + A Pr = ME) (2) 
La última igualdad es válida, ya que las variables aleatorias p(£, x) e 


lin = xy como funciones de E y n, respectivamente, son independientes y, 
por consiguiente, 


ME, Oy = 0) = Mole, MZ 1) = Mot, xP = x). 


Las relaciones (2) muestran que el concepto de e.m.c. también puede 
conservar su significado en el caso cuando la probabilidad de la condición 
es igual a 0: pues de por sí la igualdad 


MI[p(<, m/ny = x] = Maté, x) 


para E y n independientes se presenta natural, y con la suposición de 
P(n =x)>0 no está relacionada de ningún modo. 

Supongamos que Y es la v-álgebra de Y. Vamos a definir ahora el con- 
cepto de e.m.c. de la variable aleatoria £ con respecto a Y que designaremos 
por M(E/41). Primero daremos la definición del caso “discreto”, pero de 
modo que se generalice fácilmente. 

Llamamos “discreto” el caso cuando la o-álgebra de Y está formada 
(generada) no más que por una sucesión numerable de los sucesos disjuntos 
Al Á2 ...; UA = Q P(A¡) > O. Este hecho se escribe en forma de 
Y = (Ay, Az, ...) y significa que como elementos de Y sirven todas las 
uniones posibles de los conjuntos A;, Az, ... 

Con ayuda de la variable aleatoria E y el sistema de sucesos (41, Az, 
- ..) construiremos una nueva variable aleatoria E = É(w) del modo si- 
guiente: 


¿= yu MIE/As) AE cuando w» € Ar k=1,2, ... 


Con otras palabras, 
¿ - UM Ar) 


donde /, es el indicador del conjunto A. 


j 9. ESPERANZAS MATEMÁTICAS CONDICIONALES 123 


Definición 1. La variable aleatoria É se llama e.m.c. de ¿ con respecto 
a la a-dlgebra de MU y se designa por M(E/YU). 

Ahora bien, a distinción de lás esperanzas matemáticas ordinarias, la 
e.m.c. M(¿/4A) es una variable aleatoria. En nuestro caso esta variable es 
constante en los conjuntos Ax y equivale, en estos conjuntos, al promedio 
de ¿en Ax. Si £ y Y son independientes (o sea, P(¿ € B; 4£) = P(£ € 
€ B)JP(Ax)), entonces es evidente que M(£ Ax) = MEP(As) y É = ME. 

Sin embargo, si A = fy, entonces ff también es “discreta”, E es constante 
en los conjuntos 4; y, por lo tanto, É = £. Señalemos las dos propiedades 
principales siguientes de la e.m.c.: 

1) É es medible con respecto a MA. 

2) Para cualquier suceso A € YU 


M(É, 4) = M(E A). 


La primera propiedad es evidente. La segunda se deduce del hecho de 
que todo suceso A € Y es representable en la forma A = Ul4;yx y, por 
k 


consiguiente, 


M(É, A) = 2M( An) = 2 PA) = 2M(E Ap) = M(E, A). 


Esta propiedad es bastante clara: tras promediar la variable £ respecto al 
conjunto A se obtiene el mismo resultado que al promediar la magnitud 
É ya promediada respecto a Aj. 

Lema 1. Las propiedades 1) y 2) definen univocamente la e.m.c. y son 
equivalentes a la definición 1. 

Demostración. En una dirección la afirmación del lema ya está demos- 
trada. Ahora supongamos que se han cumplido las condiciones 1 y 2. La 
mensurabilidad de É con respecto a A quiere decir que É es constante en 
los conjuntos Ax. Designemos el valor de £ sobre Az a través de yx. Como 
Ax € A, de la propiedad 2 se deduce que 


M(É, Ax) = yxP(Ax) = M(E Ax) 


y, por lo tanto, para w € Ax 


M(¿, Ax) 
P(Ax) 


Ahora podemos dar la definición general de la e.m.c. 

Definición 2. Supongamos que ¿ es una variable aleatoria en el espacio 
probabilístico (Q, y, P) y que Y C Y es la o-subálgebra de Y. Llámase espe- 
ranza matemática condicional de E respecto a Y la variable aleatoria É desig- 


E = ys = . 9 
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nada por M(£/% ), la cual posee las dos propiedades siguientes: 

1) E es medible respecto a Y. 

2) Para cualquier A € U €es válida M(É, A) = M(E; A). 

En esta definición la variable aleatoria £ puede ser tanto escalar como 
vectorial. 

En seguida surgen las preguntas: ¿existe tal variable É? y ¿es única ésta? 
Hemos visto que en el caso “discreto” la respuesta a estas preguntas es 
positiva. En el caso general es válido 


Teorema 1. Si M|¿| es finita, entonces la función É = M(£/U) siempre 
existe en la definición 2 y es única con una exactitud de hasta los valores 
en el conjunto de probabilidad cero. 


Demostración. Primero supongamos que ¿ es escalar, ¿ > 0. Entonces 
la función del conjunto 


QA) = [¿dP = MIE A), 460, 


A 


será la medida en (Q, Y ), que es absolutamente continua respecto a P, pues- 
to que P(4) = 0 conduce a Q(4) = 0. Por consiguiente, según el teorema 
de Radón—Nikodym ((11], Suplemento 3) existe la función %-medible 
£ = M(E/A ) única, con una exactitud de hasta los valores en el conjunto 
de medida cero, tal que 
Q(4) = [¿sP. 
A 

En el caso general pongamos E=E* — E”, £E* = máx(0, E) >0, 

8 e máx(0, — it) 2 O, 


Entre, 


donde £* es la em.c. para ¿*. Esto demuestra la existencia de la e.m.c., 
ya que Esatisfará las condiciónes 1) y 2) de la definición 2. De aquí también 
resulta la unicidad, ya que la suposición acerca de la no unicidad de É signi- 
ficará la no unicidad de É* o de É”. La demostración para ¿ vectoriales 
se reduce al caso unidimensional, ya que las propiedades 1) y 2) pertene- 
cerán a las coordenadas de É cuya existencia y unicidad ya han sido demo- 
stradas. «1 

La esencia de la demostración citada es bastante clara: pues según la 
condición 2, para cualquier A € Y se da M(É; A) = (ap, O sea, se dan 


A 
los valores de las integrales de É de todos los conjuntos A € A. Es evidente 
que esto debe definir uriívocamente la función A-medible É con una exacti- 
tud de hasta los valores en el conjunto de medida 0. 
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El sentido de M(¿/4 ) queda el mismo y, en términos generales, consti- 
tuye el promedio de E en los elementos ““indivisibles” de Y 

Si A = $, entonces, evidentemente, É = E satisface las propiedades 1) 
y 2) y, por lo tanto, M(£/$) = £ 

Definición 3. Supongamos que ¿£ y ny son las variables aleatorias en (N, 
$, P) y que Y = o(n) es la o-álgebra engendrada por la variable aleatoria 
7. Entonces M(¿/A ) también se llama esperanza matemática condicional 
de la variable ¿:respecto a y. 

A veces, para simplificar la exposición, en vez de M(£/0(7)) escribiremos 
M(€/m, lo cual no conduce a equivocaciones. 

Cormno, por definición, M(¿/7) es una variable o(y)-medible aleatoria, 
esto significa (véase [11], p.65) que existe una función medible g(x) para 
la cual 


M(¿/m = 8(.). (3) 


Por analogía con el caso discreto, la magnitud g(x) aquí puede ser interpre- 
tada como el resultado de la mediación de ¿ en el conjunto [y = x). Recor- 
demos que en el caso discreto g(x) = M(£/y = x)). 

Definición 4. Si E = /c es el indicador del conjunto C€f, entonces 
M(/c/AU ) se denominará probabilidad condicional P(C/4A) del suceso C 
respecto a Al. Si A = a(y), entonces hablaremos de la probabilidad condicio- 
nal P(C/y) del suceso C respecto a y. 

Propiedades de la e.m.c. 

1) La e.m.c. posee propiedades de esperanzas matemáticas ordinarias 
(véase [11], p.75), con la única diferencia de que las mismas se cumplen 
casi con seguridad (con probabilidad 1): 

la) M(c¿/2) = cCM(£/Udsi e = const, 

10) M(t1 + £1/D = M(£,/A + M(22)/9), 

lc) si En < y es. entonces M(E1/A) < M(E2/2 ). 

2) Es válida la desigualdad del tipo de Chébishev: si £ es real, £ » 0, 
entonces para cualquier x > 0, 


PE>x/m) s HEM 


Lo mismo que las igualdades del punto 1, tal relación entre las e.m.c. 
se cumple casi con seguridad. Este mismo acuerdo será válido posterior- 
mente para todas las relaciones entre las e.m.c. 

3) Si las oa-dlgebras de Ay o(f) son independientes, entonces 
M(E/4) = ME. 

De aquí se deduce, en particular, que si E y y son independientes, enton- 
ces M(£/9) = ME. Si la o-álgebra de Y es trivial, entonces, evidentemente, 
también obtenemos M(2/Y ) = ME. 
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4) Para las e.m.c. son ciertos los teoreras de convergencia, válidos para 
las esperanzas matemáticas ordinarias, por ejemplo, el teorema de conver- 
gencia monótona: si £,f E, En > 0, entonces M(£/A)1M(¿/M) os. 

5) Si n es escalar y medible respecto a U, M|¿| < co, M|¿,| < <o, entonces 


M(n¿/A) = ¡ME/M. 


Con otras palabras, las variables aleatorias A-medibles se comportan, 
respecto a la operación de e.m.e., como constantes (compararlo con la pro- 
piedad la). 

6) Para las e.m.c. quedan válidas todas las desigualdades principales 
para las esperanzas matemáticas ordinarias, en particular, la desigualdad 
de Cauchy — Buniakovski 


M(|£1E1/U) < IM(/9 )M(£2/90]'? 


y la desigualdad de Jensen: si M]£| < «o, entonces para cualquier función 
£(x) convexa hacia abajo, 


¿(M(/U) < MG(0/1 ). 


T) Fórmula de la probabilidad completa (propiedad 2 de la definición 
2 cuando A = ()): 


ME => MM(E/9). 


8) Promediación sucesiva (generalización de la propiedad 7)): si 
A C A C $, entonces 


M(E/[U) € M(M(£/9%1 1/11). 


En el Suplemento lll se puede hallar la demostración de estas pro- 
piedades. 

Es evidente que las propiedades 1), 3), — 5), 7) y 8) son válidas tanto 
para las variables aleatorias E escalares como para las vectoriales, Destaca- 
remos especialmente la siguiente propiedad de las e.m.. 

9) Es sabido que la función pía) = M(£ — ay alcanza su valor mínimo 
cuando a = Mi (véase, por ejemplo, [11)). Esa misma propiedad también 
es válida para la em.c.: cuando a(w) = M(E/4 ) se alcanza el valor mínimo 
M(¿ - a(w)) entre todas las funciones a(w) U-medibles. 

En efecto, M(£ — a(w)? = MM((E — A4(w))*/%, pero a(w) se comporta 
como constante respecto a la operación M(-/41) (véase la propiedad 5)), 
así que 


M((E — a(w)"/U) = M((E - M(E/A 9) + M((M(E/U) — a(u))*/U) 


y el valor mínimo de esta expresión se alcanza cuando a(w) = M(£/Y ). Esta 
propiedad puede considerarse como definición de la e.m.c. equivalente a 
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la definición 2. Debido a ella, M(E£/% ) puede interpretarse como la ““proyec- 
ción” de E sobre *L 

La propiedad 9 admite la siguiente generalización para el caso multidi- 
mensional, cuando ¿= (Er, ..., E,) es un vector aleatorio en R”. 

9A) Sea V = lv] una matriz arbitraria, definida no negativamente y 
de dimensión sXs, a € R*, 


ra) = (E - ay v(E- ay 


(en particular, para V = E obtenemos ¿(a) = |¿ — al?). Entonces, en la fun- 
ción a(w) = M(E/A) se alcanza el valor mínimo mín M!(a) para la clase 
a€ 


A de todas las funciones YU-medibles. 
La demostración de este hecho transcurre igual que en el caso unidimen- 
sional. Designemos a = M(E/Y ). Entonces Mt(a) = MM(+(0)/%U), 


Mí(t(a)/ 4) = M((E — a) V(E — yA = ME — a) VU (E -— y/u) + 
+ Mí(a — aAV(E -— N/A) + ME — aJy VU (a - dy) + (4) 
+ Mí(a — a)Vía — ay /9U ). 


Como a — a es el vector A-medible, entonces, según la propiedad 5), 


Mía — a)V(E — a)'/A) = (a — a) VM((E — Y/U) = O, 
M((E - Vía — A/A) = [M((£ — a)/U )) Vía — ay = 0. 


En vista de que el último sumando en (4) no es negativo y equivale a cero 
cuando qa = a, la afirmación queda demostrada. < 


$ 10. Distribuciones condicionales 


A la par con las e.m.c., las distribuciones condicionales se pueden examinar 
respecto a las o-subálgebras y respecto a las variables aleatorias. En este 
párrafo estudiaremos solamente las distribuciones condicionales respecto 
a las variables aleatorias. 

Sean £ y y dos variables aleatorias en (Q, $, P) con valores en R* y 
R*, respectivamente, y sea B* la v-álgebra de los conjuntos de Borel de R”. 

Definición 1. La función P(B/y) de dos variables y € R*, B¿B' se 
llama distribución condicional de E, a condición de que y = y, si 

1) Para cada B P(B/n) es la probabilidad condicional P(¿ € B/n) del 
suceso [¿ € B)] respecto a y, o sea, P(B/y) es una función de Borel de 
y, tal que para cualquier A € B*, 


M(P(B/m): y € 4) = fP(B/y)P(n € dy) =P(E € By € 4). 
A 


2) Para cada y», P(B/y) es la distribución de las probabilidades sobre B. 
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A veces escribiremos la función P(B/y) de una “forma más descodi- 
ficada”: 


P(B/y) = PE € B/n = y). 


Sabemos que para cada B € Y? existe una función de Borel £s(y) tal 
que ga(y) = P(E € B/y). Ahora bien, poniendo P(B/y) = gn(y), satisfare- 
mos la condición 1) de la definición. Sin embargo, en este caso la condición 
2) no se deduce de ningún modo de las propiedades de la e.m.c. y de ningu- 
na manera se ve obligada a ser cumplida: pues la probabilidad condicional 
P(£ € B/y) está definida para cada B, con una exactitud de hasta los valores 
en el conjunto Ng de medida cero (ya que existen muchas variantes de 
e.m.c.) y este conjunto puede ser propio para cada B. Por eso, si la unión 


N= U Ns no tiene probabilidad nula, puede resultar que, por ejemplo, 
BEB' 
las igualdades 


P(¿ € B¡ U B2/m) = P(E € Bi/m) + PG € B2/9) 


(aditividad de la probabilidad) a la vez para todos B,, Ba disjuntos de B* 
no se cumplen ni siquiera para un solo w de N, o sea, en el w-conjunto 
de N de una probabilidad positiva, la función gs(y) no será una distribu- 
ción como la función B. 

No obstante, en nuestro caso, cuando E es una variable aleatoria con 
valores en R* y con o-álgebra de los conjuntos de Borel B*, ga(n) = P(ée 
€B/m), siempre se puede elegir de tal modo que gp(y) sea una distribución 
condicional (véase [38], [30). 

Como era de esperar, las distribuciones condicionales poseen la propie- 
dad natural consistente en que las e.m.c. se expresan en forma de integrales 
según las distribuciones condicionales, 


Teorema 1. Para toda función medible g(x) que aplica R* en R, tal que 
M|g(£)< oo, es válida la igualdad 


M(g()/m) = [gGx)P(dx/). (1) 


Demostración. Es suficiente examinar el caso cuando g(x) > 0. Si 
g0) = La(o) es el indicador del conjunto A, entonces la fórmula (1) es evi- 
dentemente cierta, o sea, es cierta para cualquier función simple gn(x) (es 
decir, para una función que adopte un número finito de valores). Nos queda 
tomar la sucesión g,tg y utilizar la monotonía de ambos miembros en (1) 
y la propiedad 4) del $ 9. «<a 

En los problemas reales, para calcular las distribuciones condicionales, 
a menudo es posible valerse de la siguiente regla simple, que, para eviden- 
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ciar, podemos escribirla de la forma siguiente: 


2m-P(6E€B ne dy) 
P(£ € B/n = y») Pe dy  * (2) 

Por supuesto que ambas condiciones de la definición 1 serán satisfechas 
formalmente. 

Si £ y y tienen densidad de distribución, dicha igualdad adquirirá un 
sentido exacto. 

Definición 2. Supongamos que la distribución condicional P(B/y), para 
cada y es absolutamente continua respecto a cierta medida u en R”: 


P(E € B/9 = y) = U(</Y)u(dx). 
B 


Entonces la densidad f(x/y) se denomina densidad condicional de € (respec- 
to a la medida a), a condición de que y = y. 
En otros términos, la función f(x/y) medible conforme al par de varia- 
bles x, y es la densidad condiciona! de E a condición de que y = y, si 
1) Para cualesquiera conjuntos de Borel, A CR*, BC R*' 


| [S0/MMAP € dy)=P(E€ B 91 << A), (3) 
yEA xtB 


2) Para cada y la función /(x/y) es la densidad de distribución de las 
probabilidades. 
Del teorema 1 se deduce que si existe la densidad condicional, entonces 


M(£(0)/m) = [g00/4x/mulax). 


Si suponemos adicionalmente que la distribución de y tiene una densi- 
dad q(y) respecto a cierta medida A en R*, entonces (3) se puede escribir 
de la forma siguiente: 


j 7 Fx/Ya0 rldxWMdy) = P(E € B y € A), (4) 
EA B 


Examinemos ahora el producto directo de los espacios R* y R* y, a 
base de él, el producto directo de las medidas «+ XA (si C=BxA, BC 
CR” ACR', entonces y X MC) = ¿(B)MA)). En este espacio la relación 
(4) significa, evidentemente, que la distribución compatible de £¿ y y en 
R* x R* tiene una densidad respecto a y Xx A, igual a 


HxX y) a f(x/y)q0). 


Pero también es válida la afirmación inversa. 


98030 
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Teorema 2. Si la distribución compatible de E y y en R* x R* tiene una 
densidad f(x, y) respecto a y x h, entonces la función 


Jaly) e PER Y. donde q) = [os y Mtdx) 


es la densidad condicional de E, a condición de que y = y, y la función 
a”) es la densidad de y respecto a la medida A. 
Demostración. La afirmación del teorema respecto a q(y) es evidente, 


ya que (qU)Mdy) = P(n € A). Queda señalar que f(x/y) = f04 y)/q0) 
A 


satisface todas las condiciones en la definición 2 de la densidad condicional 
(la igualdad (4) equivalente a 3 está cumplida de un modo evidente). < 

Observación 1. Las variables aleatorias £ y n en el teorema 2 se pueden 
cambiar de lugar. Entonces obtendremos que, a la par con f(x/y), existe 
la densidad condicional 


a = LE, fu > (vos yIMdy) 


de la variable aleatoria y, a condición de que ¿ = x. Este simple corolario 
del teorema 2 desempeñará un papel muy importante en la exposición po- 
sterior. Con arreglo a los problemas de la estadística, este corolario nos 
permitirá obtener, en el párrafo siguiente, la fórmula de Bayes que luego 
se utilizará con frecuencia a lo largo de todo este curso. 

Ejemplo 1. Sea €.,. la distribución normal bidimensional de las va- 
riables E, y 72, donde a = (a), a2), a1 = Mis, a = joy) ay = M(¿ — as) 
(E; - a), ij = 1, 2. El determinante de la matriz de segundos momentos 
es igual a 


ja?| = 01072 — 0% = 0102 (l — e>, 


donde oe es el coeficiente de correlación entre E, y E2. Ahora bien, si Jo] + 1, 


la matriz de segundos momentos no está degenerada y para ella existe la 
matriz inversa 


a =ó42|_ 1 A Tia, 
A=(0*)”? + |, elo ol =- 00 


rr q 


Por lo tanto, la densidad compatible de £, y Ez (respecto a la medida 
de Lebesgue) es igual a (véase el $ 2) 
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Ax y) = Xx 
2011022 Vl — q 


l (x—aY? _ 20(4-ad(y—a) , (ya) I 
x = == —“G AAA SS 
op 210”) | 01 011022 022 
Las densidades unidimensionales de £, y Ez son, respectivamente, iguales a 
_ 0 p 1 NTEY y 


l 20 = 201 
x) = e "o, = e 
10) Y2x011 90) V21022 
Por eso la densidad condicional de £, , a condición de que E2 = y, es igual a 


¿MY 
dió: q0) 


2 
1 1 A fan ) E 
= e — xa — (yY-Q : 
2x0 :(1 — q) exp | 201 (1 — q?) a: 022 e 
ésta es la idad de la distribución normal, con un valor medio 
611 
02 


a +e 2% (y — a2) y la varianza 011(1 — q?). De aquí se deduce, 


en particular, que la e.m.c. de E, con respecto a £, es igual a 


M(5/E2) = 01 +e Y 7 (E, — a). 


La recta x=a, + Q LL O - a) se llama línea de regresión de 
22 


£, sobre Ez. La misma proporciona la mejor aproximación estándar de la 
variable E, para una É£3 = y dada. 

Ejemplo 2. Examinemos el problema consistente en calcular la densidad 
de la variable aleatoria £ += els, n), donde Y y y son independientes. De 
la fórmula (3), cuando A = R*, resulta que la densidad f(x) de la distribu- 
ción de £ se expresa, mediante la densidad condicional f(x/y), por la 
igualdad 


HKx) = Y /yYP (1 € dy). (5) 


Con arreglo al problema sujeto a examen, por f(x/y) es necesario entender 
la densidad de la variable aleatoria p(f, y), puesto que P(¿ € B/n = y) = 
= P(o(7, y)€ B). 

La fórmula (5) suele ser muy útil al calcular las distribuciones de dife- 
rentes estadísticas. Por ejemplo, en el punto 6 del $ 2 podríamos escribir 
directamente la fórmula (2.7) para la densidad de la distribución de Fisher 
sin deducirla de la forma de la función de distribución. 


ge 
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$ 11. Enfoques bayesiano y minimax 
de la estimación de los parámetros 


La esencia del enfoque bayesiano consiste en que el parámetro desconocido 
Ó se examina como variable aleatoria con cierta densidad (conocida o des- 
conocida) de distribución q(t), f € O, respecto a la medida A, la cual, al 
igual que la medida y en la condición (4,), será lo más a menudo la medida 
de Lebesgue o la medida de cálculo. La densidad q(f) se llama densidad 
a priori, o sea, dada antes del experimento. El enfoque bayesiano supone 
que el parámetro desconocido 0 se ha escogido aleatoriamente de la distri- 
bución de densidad q(1). 

Supongamos a continuación, que f(x), 1€9, x€2” es la función de 
verosimilitud introducida por nosotros en el $ 6. Como ya hemos señalado, 
f(x) es, para cada 1, la densidad de distribución en 2”. Por eso la función 


A, () = Fiodal(t) 


es la densidad de cierta distribución en 2” x € respecto a la medida y” XA 
que puede interpretarse como la densidad de distribución compatible de 
X y 0. Con ta) enfoque, en virtud del teorema 10.2, la función /:(x), x€LZ” 
es la densidad condicional de X a condición de que Ó = £: 


fix) = F/O, MeríX) = M(00/0). 


En estos planteamientos, el aspecto formal del asunto exige que f(x) 
sea una función medible en í y x. En lo sucesivo, por doquier donde esto 
sea necesario, supondremos que dicha propiedad tiene lugar. 

Posteriormente, el parámetro, como variable aleatoria, siempre será de- 
signado por 6, mientras que para los valores registrados del parámetro utili- 
zaremos las designaciones f, u, etc., así que 


Mg(X) = M((0/0 = 1). 


A la par con f(x/1) podemos escribir la densidad condicional q(t/x) 
de la variable 0 a condición de que X = x: 


ateo = EQ. fu > picnatonan, 1 


Esta densidad define la llamada distribución a posteriori (o sea, después 
del experimento) de 0, que designaremos por Q,. La igualdad (1) se denomi- 
na fórmula de Bayes para la densidad de la distribución a posteriori, En 
lo sucesivo esta fórmula desempeñará un papel muy importante. 

Con arreglo al caso bayesiano, la propiedad 9 de la e.m.c. significa ló 
siguiente: entre todas las funciones 0” = g(X) la mejor estimación para 0 


$ 31. ENFOQUES RAYESLANO Y MINIMAX 133 


(desde el punto de vista de minimización de M(9 — p(X))*) es la función 
09 = M(0/X) = | tq(1/XIM(dt) = j ¿(Qr(dt). (2) 


Definición 1.La estimación 02 definida por las fórmulas (2) y (1) se 
llama bayesíana, correspondiente a la distribución a priori Q de densidad 
att). 

Señalemos una vez más, que para la estimación bayesiana, la desviación 
estándar incondicional 


M(0* — 0)? = MM((0” —- 0)*/0 = MMo(6* - 0)? = 
= ¡ M,(0* — Ya(OMdt) (3) 


adopta el valor mínimo posible. La relación (3) muestra que la estimación 
bayesiana minimiza el valor medio (con una función ponderal dada 
a(UM(dt)) de la magnitud M.(0” — 1). 

Con otras palabras, si O se escoge al azar, con densidad q(r), entonces 
la estimación bayesiana es la mejor desde el punto de vista del enfoque 
estándar. La desviación estándar (3) de la estimación bayesiana puede re- 
presentarse en la forma (véase (1)): 


M(02 — 0) = ! M:(99 — 1Yg(iMat) = 
= ff (e - 09M) (dx) = | o BLCOn (dx) = Mod, 
donde v%, es la varianza de la distribución a posteriori Qx: 
o = | U-—09)gU/IMAN = | (1 - MOP Qx(ae). (4) 
El otro enfoque de la comparación de las estimaciones, que ya hemos 
señalado en el $ 8, se basa en la comparación sup M.(0* — t), donde 
s€ 


JT C € es un subconjunto dado de (TP coincide con 8 o es igual a aquella 
de sus partes respecto a la cual se ha logrado determinar que 0 € JT). 

Definición 2. La estimación 6” se denomina minimax si para cualquier 
otra estimación 0” 


2. pr ._ 2 
sup M0" -= 1 < sup M.(6* — 


Con otras palabras, para la estimación minimax se alcanza 
inf sup Ma(0” — ty = sup M6” — 1). (5) 
A 3 ser 


Establezcamos ciertas relaciones útiles entre las estimaciones bayesianas 
y minimax. 

Teorema 1. Designemos por 04 la estimación bayeslana para la distribu- 
ción a priori Q de densidad q. Si existe la estimación 91 y la distribución 
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O tales que para todos 
M0 — 1 < [(Mu(09 — u)g(u)Mdu), (6) 
la estimación 01 es de tipo minimax. 


Demostración. Sea 0” cualquier otra estimación. Entonces sup M,(0" - 


t 
- > | M0” — Nea(dMat) > pudo — PYIIOMdO) > MO — 0.< 
Nótese que casi para todos f pertenecientes al portador No = (ff: 
q(í1) > 0) de la distribución Q, en la desigualdad (6) debe cumplirse indis- 
pensablemente la igualdad, ya que de lo contrario obtendríamos 


[ Me0i — PglMde) < | M0 — N*g(dMadl) 


lo cual contradice la definición de la estimación bayesiana. 
Esta observación nos permite enunciar el siguiente criterio del carácter 
minimax de la estimación, equivalente al teorema 1. 


Teorema 2. Si la estimación 0* 

1) es bayesiana para cierta distribución Q, 

2) M:(0* — 1)? = c = const para t € No, 

3) M0" - Sc para los demás t, entonces 0* es una estimación 
minimax. 


Si 0" = 0% = 0” satisface este criterio, es evidente que 
sup M/(0" — 1 = [ M40" — 1Na(ikdr). (7) 


Ahora bien, la estimación minimax es una estimación bayesiana que “igua- 
la” los errores M40” — 1) para diferentes t. Esto quiere decir que la distri- 
bución a priori Q, correspondiente a dicha estimación, obliga a ser 
igualmente atentos a todos los valores posibles de 0 sin orientarse, como 
lo hacen las estimaciones bayesianas 9Q correspondientes a otras distribu- 
ciones a priori Q + Q, hacia ciertos valores destacados (más probables) de 
6. En vista de-que en el último caso utilizamos una información comple- 
mentaria acerca de 6, es natural que para Q x Q las estimaciones $%4 posean 
desviaciones estándar incondicionales de menores valores: 


¡M:(02 — 1 Q(dt) < | Mu(0% — 1 Qtat). 


Por eso la distribución Q en el teorema 2, la cual corresponde a la estima- 
ción minimax 0”, a menudo se llama distribución pésima. 

En vista de que tal distribución pésima Q no siempre existe (eso suele 
suceder en los casos cuando 8 es un conjunto ilimitado), se puede proponer 
el siguiente criterio modificado para determinar la estimación minimax. 

Teorema 3. Si existe la estimación 06; y la sucesión de distribuciones 
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Q%) con densidades q'*? tales que para todos ! 
M:(03 — 1) < lim sup | Mu(09(k) — 09 MaN), 


entonces la estimación 0, es minimax. 


La demostración de este teorema es igualmente simple. Para toda esti- 
mación 0” es válida 


sup M.(0* - y*> í M0” - Ya Piomdn > ¡ M:(09w — ng (NAan). 
t 

De aquí se deduce que 

sup M.(9* — 1)? > lim sup | M0 - add) > M0 — 19. a 
t k- 0 


Ejemplo 1. Sea X € Y. 1. Determinemos qué representa la estimación 
bayesiana algu del parámetro a: con una distribución normal a priori 


Q% <= €0.1). En este caso debemos poner Mdt) = dt, 
0 = + e 
2wk 


La distribución a posteriori Q? tendrá una densidad q**(+/X) propor- 
cional (como función de 1) a q (/(M) o bien, que es lo mismo, proporcio- 


nal a 
ep( EN -> Ss NN 0]. 
De la igualdad 
Elgar) + zm 5 (gen) (e 2 ) + Gny 
2 No 2 NE ¿en 2 (+ 


se deduce que 


P=0> E 
=P. ta 
Como la estimación bayesiana ap» del parámetro a es igual a la esperan- 
za matemática de la distribución a posteriori, de aquí obtenemos 


La varianza de la distribución a posteriori 0% = no depende 


E 
l+nk 
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de X. Por consiguiente, en virtud de (4) el error estándar de la estimación 
bayesiana es igual a 


k 1 


— 


Lenk nh 
cuando k => «o, Por eso para la estimación a” = X tenemos 
MG 02 = ly | Malaga — Na 


y, por lo tanto, según el teorema 3, la estimación a” = X es minimax. La 
distribución “pésima” sería aquí la distribución uniforme en toda la recta 
(distribución “límite” para Po,x), si tal distribución existiera ”. 

En el ejemplo siguiente, el conjunto O es compacto y existe la distribu- 
ción “pésima”. 

Ejemplo 2. Supongamos que X € Bp, O sea, que xy, j = 1, ..., nadop- 
tan los valores 1 y 0, respectivamente, con probabilidades p y l — p, p € 
€e9 = [0, 1]. Como sabemos, en este caso para la estimación p” = X es 
válida 


My(X - pY = p(l — pla, 


así que el criterio del teorema 2 no se ha cumplido. Examinemos la esti- 
mación 
L 1 
X + 
p= —G— SE k (8) 
A 


Para ella el error 


Moto py = (1+ Ly mol pt Le) . 


> A pl» Lar) - l 
rl E To + YY 


no depende de p. Si ahora nos convencemos de que la estimación (8) es 
bayesiana, determinaremos de este modo su carácter minimax. Examine- 
mos la distribución a priori Q = By+1.1+ 1, donde B,, ,, es la distribución 


* Bs interesante anotar que la estimación a* = X deja de poseer la propiedad menciona- 
da, si x es una muestra de una distribución normal multidimensional cuya dimensión consti- 
tuya más de dos (y €R*, a ER*, k > 3). Esto se expone más detalladamente en (48). 
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beta de densidad (véase el punto 8 del $ 2) 


PA: + Az) ela pa 
Fayray 200 


Entonces, como 


MX) = E y 0-9, qa . EEN DD a y, 


MN +1 


la distribución a posteriori tendrá una densidad q(1/X) que, como función 
de £, será proporcional a f.(A)g(t) o bien, que es lo mismo, será proporscio- 
nal a 

| yn pa? ada 


Esto significa que la distribución a posteriori coincide con 
Brern+1n+na-x3+1. En vista de que el valor medio de la distribución 
Ba, es igual a A1/A1 + A2) (véase el punto del $ 2), la estimación bayesia- 
na po, correspondiente a Q, será igual a 


e N+gxn+1 _ x3+(N + D/n 
PEINE A+2 TA ANA Dn! 


Cuando N + 1 = vn72, está estimación coincidirá con la estimación p* de- 
finida en (8) y, en virtud del teorema 2, será minimax. La distribución Q 
será la peor (pésima), ya que se concentra o medida que crece n alrededor 
del “peor” valor del parámetro p = 1/2 con el que la varianza de la estima- 
ción X, igual a p(l — p)/n = 1/(41), será máxima. La propia estimación 
x no es minimax, ya que 


LA A 1 
CAC EE ER 


Al mismo tiempo es natural que para todos los valores de p que están fuera 
del entorno estrecho del punto p = 1/2, la estimación X será, sin embargo, 
mejor que po, y esto tendrá lugar para todos los valores p para los cuales 


Ñ 
COS IA 


En el caso general la determinación de las expresiones exactas (funciones 
explícitas de X) para las estimaciones bayesianas y minimax no es siempre 
posible. Por eso es natural utilizar también el enfoque asintótico. 

Antes de introducir las definiciones correspondientes, debemos recordar 
que las estimaciones bayesianas y minimas 96 y 0” han sido definidas por 
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las desigualdades 


M(0% — 0)? —- M(0* — 6y* <O, 
1 (9) 
sup M:(0" - 1Y — sup M:(0” - 1 <0 


para cualquier estimación 0”. No sería racional determinar el carácter baye- 
siano y minimax de las estimaciones, añadiendo simplemente a los primeros 
miembros el signo del paso límite (lim ), ya que, por regla general, para 


las estimaciones a.n. de Me(0* — 0)? -0*(0)/n, los primeros miembros en 
(9) también convergerán hacia el cero. Por eso es natural examinar, diga- 
mos, la relación de los sumandos en (9). Teniendo en cuenta que más ade- 
lante se tratará principalmente de las estimaciones para las cuales 
Mo(0* — 0) tiene un orden de pequeñaz igual a 1/n, se puede utilizar de 
un modo equivalente la definición siguiente. 

Definición 3. La estimación 9; se denomina asintóticamente bayesiana 
o asintdticamente minimas, si para cualquier otra estimación 0” se cumple, 
respectivamente, 


lím_sup [Mn(0; — 0) — Mn(6* — 0] <0, 


lím sup [sup Mn(63 - 1? — sup Min(9” — 1)*] 50. 
mA 0 tE tET 
Como veremos, la determinación de las estimaciones asintóticamente baye- 
sianas y asintóticamente minimax es posible para suposiciones muy 
amplias. 
En el caso multidimensional (cuando 6 € R* es un vector) la propiedad 
9) de la e.m.c., como hemos visto, se conserva, y la estimación 
89 = M(9/X) 
minimizará 
v(0*) = M(0* — 0)V(0* — 0) = MM(0" — 0)V(0" - 0 = 
= | M0" — 1V(" — N*a(dMat) 
para cualquier matriz V definida no negativamente o, que es lo mismo (véa- 
se el $ 8), minimizará la desviación estándar 0* — € promediada (con peso 
q(t)) en cualquier dirección a € R*, 
Definición 4. La estimación 0¿ se llama bayesiana si para cualquier otra 
estimación 0” y para cualquier matriz Y definida no negativamente, 


v(99) < u(0”). 
La estimación 0; se llama asintóticamente bayesiana si 


lím sup [nv(0j) — nv(69)] < O. 


rn”. 
Definición 5. La estimación D” se denomina minimax si para cualquier 
otra estimación 0* y para cualquier matriz V definida no negativamente, 


sup M0” - 0V6" - Y - sup Mi(0* - HV(0" - N<0. 
s€ ter 


La estimación 0 se denomina asintóticamente minimax si 
lím sup [sup Min(6; — 1 V(0 — ey - sup Mn(0” — 19 V(6" - 197 <0. 
€ 1 


n-— 0 t 

Concluyendo este párrafo señalaremos una vez más que las designacio- 
nes MoS, Pe(A4), fo(x) en el caso bayesiano pueden ser consideradas, si es 
necesario, desde un nuevo punto de vista: como esperanzas matemáticas, 
probabilidades y densidades condicionales respecto a 0, o sea, como 
M(S/0), P(A/0) y f(x/0), respectivamente. 


$ 12. Estadísticas suficientes 


En el párrafo anterior hemos examinado la cuestión acerca de la cons- 
trucción de dos tipos de estimaciones óptimas: bayesianas y minimáx. En 
este párrafo introduciremos el concepto de estadística suficiente, que nos 
permitirá construir estimaciones eficientes, o sea, otro tipo de estimaciones 
óptimas destacadas en el $ 8, 

La noción de estadística suficiente desempeña un papel importante en 
la estadística matemática en general y en la teoría de las estimaciones en 
particular. 

Convengamos en designar las estadísticas, o sea, las funciones medibles 
arbitrarias (escalares o vectoriales) de X, con el símbolo S = S(X. 

Sea X € Pa, PoE 2 = (Po]. Examinemos la distribución Ps(Y € B/S), 
B € 83; que es condicional respecto a la variable aleatoria S y que ha sido 
engendrada por la distribución Po en 2”. 

Definición 1. La estadística S = S(X) se llama suficiente para el pará- 
metro 0, si existe la variante de la distribución condicional PAX € B/S) 
que no depende de Q,, 

Sabemos que Po(X € B/5S) es, para cada B, la e m.. y, por consiguiente, 
existe una función P(B/s) de Borel en s para cada B, tal que 


PX € B/S) = P(B/S). 


Podemos considerar (véase el $ 10) que P(3/5), como función de B, es la 
distribución condicional de las probabilidades, a condición de que $ = s. 
Esta distribución puede interpretarse como la distribución de X en la super- 
ficie S(x) = s. 
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Pero si S es una estádística suficiente , entonces dicha distribución ¡no 
depende de 9! Esto significa que el conocimiento del lugar donde se encuen- 
tra el punto muestral X en la superficie S(x) = s no nos comunica ninguna 
información complementaria acerca del parámetro 6. (Pues éstá claro que 
nadie se dedicará a determinar el parámetro desconocido en el ejemplo 
1 de la Introducción, con ayuda del lanzamiento de una moneda, puesto 
que la distribución del número de “caras” o “cruces” con tal lanzamiento 
no depende de Ó en absoluto). 

Esta circunstancia importante significa, a su vez, que toda la informa- 
ción acerca del parámetro 0 está contenida en el valor de la estadística S. 
De aquí precisamente procede su nombre: estadística suficiente. Hablando 
en términos generales, el conocimiento de S(X) es suficiente para construir 
el parámetro 0, pero los demás datos contenidos en la muestra X son 
inútiles, 

Ejemplo 1. Sea X € M,. Demostremos que la estadística S = nx = 

A 
= ),x¡ es suficiente para el parámetro de la ley de Poisson A. Debemos 

mt 
convencernos de que la distribución de la posición del punto X' en la super- 


ficie Y, xi = s (s es un número entero) no depende de A En vista de que 
¡ul Lal A 
P(X =x, Yu = s) = P(X = x) cuando ))x = s, entonces 
(it 


n 
P(x; E Xp ..., Ap S Xn_ si Sy $ 
P(X = x/nX = 5) = P(nx = s) im1 


A 
0 si Y yx Ss. 
¡=] 


Como x, son independientes, S Xx 6 IM.,, el segundo miembro de (1) es 
(1 


Cas 8 TI er MZ st 
s! 
joel 


a 
xl r*TI xi1 
m1 


igual a 


Ahora bien, la distribución de X, que es condicional cuando S = Ss, 
coincide con la distribución polinomial B; (véase el $ 2) con n casos. equi- 
probables (o sea, con el vector de probabilidades p = (1/n, ..., 1/n)) y 
con s pruebas independientes. Es evidente que la disribución no depende 
de A, así que S =.nx es una estadística suficiente para h. 
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El concepto de estadística suficiente fue introducido en 1922 por Fisher. 
El siguiente teorema de Neyman — Fisher lleva el nombre de teorema de 
factorización y establece un criterio elemental de existencia de la estadística 
suficiente, 

Supongamos que ha sido cumplida la condición (A4,) de existencia de 


la densidad f(x) = EN Lo. 


Teorema 1. Para que S sea una estadística suficiente para 0, es necesario 
n 


y suficiente que la función de verosimilitud f(x) = Y] fo(x1) sea represen- 
iwl 
table en la forma 
fx) = USC, OA) c.s.[1s”], (2) 
donde cada una de las funciones y > 0 y h > O depende sólo de sus propios 
argumentos, yis, 6) es medible en s, y h(x), en x. 

Por supuesto que la representación (2) no es unívoca. Sus componentes 
han sido determinados con una exactitud de hasta una función positiva 
arbitraria de S(). 

En el ejemplo anteriormente examinado, con la distribución de Poisson, 

1) A ñ 
E A A pr 1 a 
ño = [|] e A A TT 7.»- 2x2 
iu] dut jui 
así que podemos, para $ = nx, poner 


US, Y = e "Ah, AGO) = Il 


dl 1 


Ele 
al: 


De aquí, en virtud del teorema 1, resultará que S = nX es una estadística 
suficiente. 

La demostración del teorema 1 aquí sólo se da para dos casos particula- 
res más importantes: para el caso discreto y para el caso “suave”. En el 
caso general, la demostración del teorema de Neyman — Fisher se da en 
el Suplemento IV. 

Én el caso discreto, y es la medida de cálculo en el conjunto numerable 
Zde los posibles valores de x, y, por lo tanto, fe(x) = Polxy = Xx), x € 
Supongamos que al principio ha sido cumplida (2). Entonces, para el punto 
registrado x € 2”, 


PAX = x/500 = 500) = RR. 3) 
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Como (X =x, SM) = S(x)] = (X = x)], el segundo miembro de (3) es 
igual a 

PAX = x) => Fox) SE 
PASOS = S(o) Y fe) 


Y:S(y)= S(r) 
A EIESAI OS I TS ME 
2  wyUS(x), 00) 2 0) 
3:SG) = Sx) y:SO)=S(x) 


Ahora bien, Po(X = x/S(X) = S(x) no depende de 6. 

Al contrario, si el primer miembro de (3) no depende de 6, entonces, 
designándolo por A(x), de (3) obtenemos PA(X = x) = fo(x) = Pal Ys x; 
S(X) = S()) = Ax) PolS(X) = S(x)), donde PASA) = S(x)) = Y1S(e), 
6) depende solamente de S(x) y de 6. a 

De un modo algo más complicado el teorema | también se demuestra 
en otro importante caso particular, o sea, en el caso “suave” cuando 
es la medida de Lebesgue en R, y la estadística S(A) se supone que es fun- 
ción suave de X,, es decir, una función tal que existe la sustitución de las 
variables y, = S(), y =»(%), ..., Jn = Ynl(x), resoluble respecto a 
Xx = 0, ax 

4 


. . .» Jn), con un jacobiano distinto del cero J = |—| X 0. En este caso, 
como es sabido de las fórmulas del análisis clásico sobre la sustitución de 
la variable en la integral, la densidad de la variable aleatoria Y = (S(A), 
JIAMAD), - - ., JA(A)) será igual a 
go(y) = foo, A Or ..., Jn). 
La densidad de la variable aleatoria »(X) = S(X) será igual a 


PU) = $ god) ... di = | felxdilldy: ... dyn, 
rR"-! ren! 


y la condicional de Y, a condición de que S(X) = s, será, por consiguiente, 
determinada por la relación 

AY/S) = eN) - fe 

en ¿Pa 

Después de estas observaciones preliminares, la demostración del teorema 


1 para el caso “suave” se desarrolla al igual que para el caso discreto. En 
efecto, si se ha cumplido (2), entonces 


para y; = s. 


a Ys 9MCO! | 
db ¡ US DhCMMÍdy2 ... dyn 


R"”! 
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En esta relación, y(s, 0) se reduce. Esto significa que la distribución de 
Y, condicional a condición de que S(X) = s, y, por lo tanto, también la 
distribución de X no depende de 6, 

Al contrario, si p(y/s) no depende de 0, entonces 


Jolx) = 20 cuando s = S(x). 


Esto significa que (2) se cumple cuando vyís 0) = 25), h(x) = 
= AY//J]. < 

Ejemplo 2..Sea Y € 9... Aquí el parámetro 9 = (a, a?) es bidimen- 
sional. Tenemos 


sl - -1 Mza - -n/2 Qu - a) Y _ 
JA) = [1 o Vir e =0 (27) exp | = 


El - 2 
= 97" exp[ - A 


Poniendo S = (Si, $2), Sí = nx, S2 = ))xÍ, obtenemos la representación 
ful 
(2), donde 


US 0) = "rep — E MX) = (0072. 


Aquí podríamos, desde luego, atribuir el factor (2x1) 7”? también a la fun- 
ción y, poniendo A(X) = 1. 

Ahora bien, hemos obtenido que la estadística (S,, S2) es una estadística 
vectorial suficiente para (a, 0”). De toda la información contenida en la 
muestra nos es suficiente saber X y Dx?. 

Proponemos al lector hallar las estadísticas suficientes para todas las 
familias de distribuciones citadas en el $ 2. 

Concentraremos la atención tan sólo en una de estas familias. 

Ejemplo 3. Sea X € Uo,s. Aquí la condición (A, ) se cumple con respec- 
to a la medida de Lebesgue y 


_f0"" si0<x¡<0 cuando todos ¡= 1, ..., a 
AS ho en el caso contrario. 


Sea Xq) = mín X;, Xq) = máx x;. Entonces, como hemos visto en el 
ejemplo 6.5, la función f+.(X) puede ser escrita en forma de /.(A) = Y(Xm» 
AA), donde 


_ Sl si xa), >0, 
AS lo en el caso contrario, 
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_ (0”—” para s<0, 
vis, 0) = (o en el caso contrario. 


Esto significa que S(X) = X(n) es una estadística suficiente para 6. 

Análogamente el lector puede convencerse de que para la muestra X € 
6 Us 1 + e, como estadística suficiente para el parámetro 9, sirve la estadísti- 
ca bidimensional S(X) = Xq1), X(m)). Asimismo será la estadística suficiente 
para el parámetro bidimensional € = (a, b) cuando la muestra ha sido ex- 
traída de la distribución Us, ». 

Citaremos dos corolarios del teorema 1, 

Corotario 1. Si S es una estadística suficiente para 0, la estimación de 
verosimilitud máxima depende únicamente de S, 

Mejor dicho, la ev.m. 6 no depende de X cuando se ha registrado S(A). 

Este corolario es evidente, ya que la ev.m. es un valor de 0 para el cual 
se alcanza el máximo de fe(X) = Y(S(A),0A(X) o bien, que es lo mismo, 
el máximo de y(S(A), 6). 

Corolario 2. Si S es una estadística suficiente y la función e es tal que 
la aplicación u = p(v) es biuntvoca y medible en ambas direcciones, enton- 
ces $, = e(S) también será una estadística suficiente. ' 

Este corolario también es evidente, puesto que y(S, 6) en (2) puede escri- 
birse en forma de y(p” (Si), 6) = (Si, 6). 

También es válido un criterio más de suficiencia de la estadística $, 


Teorema 2. La estadística S es suficiente para O si y sólo si para toda 
distribución a priori Q del parámetro 0 la distribución a posteriori Qx de- 
pende de X tan sdlo a tráves de S(X) (o sea, permanece invariable en la 
superficie de S(X) = S). 

Demostración. Supongamos que S es una estadística suficiente y que 
q(t) es la densidad Q respecto a cualquier medida k. Entonces,. la densidad 
a posteriori q(t/X”) respecto a dicha medida, según la fórmula de Bayes 
será igual a 


H(AYglt) YASIO, Dalí) 
/X)= = É 
ua 009) USCO, )q(1YMdu) 


Demostremos ahora la afirmación inversa del teorema. Escojamos una 


distribución a priori de modo que q(+) > O en todas partes sobre O y para 
todos ( 


400 + ALCA 100 = 0040). 


Si q(1/X) = g(£ S(X)), entonces, poniendo Ys, 1) = 8(% s)g(0), HA) = 
= f(X), obtenemos la representación (2). < 
Corolario 3. Si S es una estadística suficiente, todas las estimaciones 
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bayesianas y las estimaciones minimax definidas con ayuda del teorema 
11.2 dependen únicamente de S. 

En adelante obtendremos muchas otras confirmaciones de que la esta- 
dística suficiente S contiene la información completa acerca de 6. 


$ 13. Estadísticas suficientes mínimas 


Examinemos ahora la cuestión acerca de la elección de las características 
suficientes. Claro está que el número de éstas puede ser muy grande, Por 
ejemplo, la estadística S(X) == X siempre es evidentemente suficiente. La 
misma se llama estadística suficiente triviaf. Sin embargo, estamos interesa- 
dos (posteriormente será aclarado el porqué) en estadísticas más “económi- 
cas”. Resulta que no siempre, ni micho menos, se pueden construir 
estadísticas suficientes que sean mucho más “económicas” que la estadísti- 
ca suficiente trivial. Volveremos a esta cuestión después que determinemos 
más exactamente los canteptos relacionados con la “economía” de las ca- 
racterísticas Suficiente.. Para esto, introduzcamos en el conjunto de todas 
las características suficientes (para cierto parámetro 0), un orden parcial. 

Definición 1. Diremos que la característica S, está subordinada a S2 
si Si es una función medible de S2:S, = p(S2). 

Esta relación significa precisamente que S;, es más “económica” que S». 

Definición 2. Si S, está subordinada a S2, y S, está subordinada a S,, 
las estadísticas S, y S¿ se denominan equivalentes. 

Evidentemente, S, es equivalente a $2 si y sólo si Si = g(S2) y p es una 
aplicación biunívoca medible en ambas direcciones. 

Definición 3. La estadística suficiente So se denomina mínima si está 
subordinada a cualquier otra estadística suficiente S. 

La estadística suficiente minima es la más económica. Si hemos cons- 
truido la estadística suficiente mínima S, entonces, siempre que se conserve 
la propiedad de suficiencia, será imposible la reducción ulterior de los datos 
en comparación con S. Los demás datos contenidos en la muestra pueden 
considerarse como engendrados por cierto mecanismo aleatorio no depen- 
diente de 8, y ellos no proporcionan ninguna información acerca de 4. 

Los conceptos introducidos, al igual que el concepto inicial de estadísti- 
ca suficiente, pueden exponerse, de forma ligeramente generalizada, en el 
lenguaje de las a-álgebras, que en una serie de casos resulta más cómodo 
y evidente. Al principio —en la definición 1 del párrafo precedente— la 
distribución condicional P.(X € B/S) se puede sustituir por la distribución 
condicional PA(X € B/U) respecto a la o-subálgebra U C Y y la U o- 
álgebra se puede llamar suficiente si existe cierta variante Ps(X € B/U) que 
no depende de 9. 
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Con tal enfoque, el teorema de factorización se conserva si la función 
wHS(AO, 0) es sustituida por la función Y(% 8) U-medible en X. La demos- 
tración de este teorema, expuesta en el Suplemento 1V, prácticamente no 
se diferencia de la anterior. 

La estadística suficiente ahora puede ser definida como una estadística 
S para la cual la o-álgebra de o(S) será suficiente. 

En el lenguaje de las v—álgebras, la subordinación de las características 
suficientes (véase la definición 1) no exige2que se introduzcan conceptos 
complementarios y coincide simplemente con el encaje de las d-álgebras: 
S, está subordinada a $ si 0(S,)C o(S2). Ahora bien, S, es más económica 
que S) si la o-álgebra de v(Si¡) es más pobre que ov(S2). La equivalencia de 
Si y Sz significa que u(S¡) = a(S2). 

La o-álgebra suficiente mínima de Uo se define como una c-álgebra que 
se encaja en cualquier c-álgebra suficiente. 

La o-álgebra suficiente mínima existe siempre. Para convencerse de ello 
seftalaremos previamente que, en virtud del teorema 2 del Suplemento 1V, 
existe una distribución Q en € (además, discreta), tal que todas Py son 
absolutamente continuas respecto a la distribución Py = rosada 

Esto significa que Jo(A) = Y“(AMNQ(dN > O para todas X, o que de la 
igualdad fo(A) = 0 resulta f.(A) = O para todos 06. En este caso se dice 
que Po domina la familia (P4), así que podríamos adoptar Po como medi- 
da de yu La densidad de la distribución Pa respecto a esta medida es igual a 


dPe JFolx) 

—e (x= = r(x, 0). 
Está claro (compárese con el teorema 12.2) que si S es una estadística sufi- 
ciente, r(x, 6) depende de x sólo a través de S(Gx). 


Teorema 1. La o-óálgebra de QUe = o(r(X, 0); 0 € O) engendrada por las 
variables aleatorias r(X, 0) = fAXYVf2(A) para diferentes 0 € O, es una 
o-álgebra suficiente minima, 


La demostración del teorema es muy simple. La suficiencia de Up resulta 
del teorema de factorización y del hecho de que 
AX) = r(X, IY200, 0) 
donde /o(X) no depende de 0, y r(X, 6) es medible respecto a Up. 
Sea ahora U cualquier o-álgebra suficiente. Entonces fe(X) = y(X, 


0)/h(X), donde la función y(X, 6) es U-medible, Examinemos la J-álgebra 
de Uy = (HX, 0), 9 € O) C U. De la definición r(X, 6) se deduce que 


YX, t)Q(dI) 


y, por lo tanto, Ya E Uy CU. <a 
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Con este teorema y con el teorema 12.2 está estrechamente ligada otra 
afirmación útil. Examinemos el planteamiento bayesiano del problema 
cuando 0 es una variable aleatoria con la distribución a priori Q. Sea 
qa(t) > O la densidad de esta distribución con respecto a la medida conve- 
niente A en 89. Entonces la densidad a posteriori será igual a 


qu/X) = a q = AX, Dg, 


y, por consiguiente, la v-álgebra suficiente mínima de Uo puede considerarse 
como engendrada por la distribución a posteriori: 


Uo = a(q(1/X); 1 € 8). 


Por regla general, la determinación de las distribuciones Q y Po que 
figuran en el teorema 1 no es difícil. Por ejemplo, si el portador Nps de 
la distribución P+ no depende de 0, lo que tiene lugar para la mayoría de 
las distribuciones citadas en el $ 2, se puede tomar Po = Pa, para cual- 
quier Oo € O. 

Así pues, disponemos del teorema de existencia y del método eficaz 
para la construcción de las o-álgebras suficientes mínimas ”. 

No obstante, las más de las veces parámosotros será más cómodo exami- 
nar las estadísticas. El fin principal de esté párrafo consiste en determinar 
las estadísticas suficientes minimas. 

Ante todo, ¿de qué modo podemos comprobar que la estadística sufi- 
ciente dada So es mínima? 

Una de las posibilidades consiste en la utilización del teorema 1. Si a(So) 
coincide con la o-álgebra engendrada por fAA)/fo(A), entonces So es la 
estadística suficiente mínima. 

Ejemplo 1. Hemos visto que la estadística S = nx es suficiente para 
el parámetro A de la distribución de Poisson M,. Ella será la estadística 
suficiente mínima, ya que o(S) coincide, evidentemente, con la o-álgebra 
engendrada por KX)/AU(A) = ena —- MANUY (aquí hemos tomado la 
distribución Q concentrada en el punto Ay). 

Ejemplo 2. Sea X € Uso... Entonces la estadística S = xn) = máx xi 
es la estadística suficiente mínima. En efecto, tomemos en calidad de Q 
cualquier distribución sobre [O, oo)-con desindad q(() > O para todos / > O. 
Entonces 

07", 0>S, 
Sfo(X) 59 la, e < S, 


” La existencia de la o-álgebra suficiente mínima de Uo también se puede establecer de 
otra manera, demostrando que Us es la intersección de todas las o-álgebras suficientes com- 
pletadas. 
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LX) + [AO = Te "gtnar > 0 
Ss 


para todas X. En este caso S = supi0f.(A)/fEA = 0), lo cual significa 
gue S es medible respecto a la o-álgebra mínima de Uy, a(S) C Uo y que, 
por lo tanto, S es la estadística suficiente minima. 


Podemos indicar otro método de determinar las estadísticas suficientes mínimas, el cual 
también está relacionado con la función de verosimilitud. En efecto, toda estadística y, en 
particular, la estadística suficiente $ engendra la partición del espacio muestra) en clases de 
equivalencia, o sea, en conjuntos de los puntos x con iguales valores de S(x). 

Si S, está subordinada a S2, o sea, S; = e(S2), es evidente que para S, la partición será 
más grande, ya que las clases de equivalencia para S2 se contienen en las de equivalencia 
para S¡. Ahora bien, a la estadística suficiente mínima le corresponde la “mayor” partición 
entre las particiones engendradas por las estadisticas suficientes. 

Se pueden examinar simplemente las particiones del espacio en clases de equivalencia 
sin relacionarlas directamente con las estadísticas. Designemos por D(x) la clase de equivalen- 
cla que contiene el punto x. Cada clase se define unfvocamente por un punto cualquiera. 
Llamaremos suficiente la partición en clases D si 


Sux) = pl, 09)h(x), (2) 


donde p(x, $) = «xs, 0) es constante para x € D(xo) [o sea, p(x, 6) = const dentro de la clase 
de equivalencia). Si las clases D(x) son definidas por las relaciones S(x) = s, del teorema 
13.1 se desprende directamente que la estadistica S(x) es suficiente si y sólo si la partición 
en clases D es suficiente, 

Examinemos ahora ta partición construida del modo siguiente: tomemos el punto a y 
declaremos que x pertenece a la clase D(x9) si la relación 


Fux) 
Sexo) 


no depende de 6. Es evidente que con tal construcción, D(X1) = Da) = D(xo) si xy € DGo), 
X2 € D(xo), así que la regla (3) engendra la partición de todo el espacio en clases disjuntas. 
Esta partición corresponde a la engendrada por la estadística suficiente mínima S. 
En efecto, sea S la estadística suficiente mínima. Tomemos un punto arbitrario xo. Enton- 
ces sobre la superficie S(x) = S(w0), la relación fo(x)/fe%) es igual a A(x)/A(x) y, por consi- 
guiente, no depende de O. Así pues, la partición en clases D es no menos grande que la 
partición para S. 

Por otro lado, esta partición es suficiente, Efectivamente, podemos hacer que a cada super- 
ficie D le corresponda un punto cualquiera xp de ella, a partir del cual la misma será definida 
univocamente. Examinemos la función xo(x) que se define según la relación xo(x) = xp si 
x € D. Entonces, en virtud de (3), cuando x € D, 


SU) = fexodhlx xD) = SoCORY)ALA, xo(x), (4) 


que significa el cumplimiento de (2). 

Los planteamientos efectuados no han sido del todo estrictos, ya que no los hemos rela- 
cionado con la cuestión acerca de la mensurabitidad de las funciones que forman pane de (4). 

Lo dicho se puede resumir del modo siguiente. Supongamos que se da una estadística 
S(X) tal que Síx) = Síxa) si y sólo si la relación (3) no depende de 0. En este caso S es 
Ja estadística suficiente mínima. 

A distinción de los enfoques relacionados con el teorema 1, donde fueron examinadas 
las relaciones fo(x)/fQ00) o bien fo(x)/f0,(x) para diferentes 0 y 6. (denominadas con frecuen- 


= H(x, xo) G) 
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cia relaciones de verosimilitud), la regla enunciada más arriba utiliza la relación fo(x)/f8(x0) 
para iguales valores del parámetro 0. En el ejemplo 1, por ejemplo, la relación 


Ah) = MM - *xol/x,! = AN - *9TLxjo!/xil 


n 
no dependerá de h sl y sólo si R=X>=-_ D)xw, donde xo son las coordenadas 
Jj! 
del vector xy. Esto es suficiente para sacar la conclusión de que S(x) = X es la estadística 
suficiente mínima. 
Valiéndonos de la regla propuesta, examinemos ahora un ejemplo cuando no existen esta- 
dísticas suficientes '* económicas”. Antes que nada señalaremos que la serie variacional 


Sy = (Xc1), Xa2), - - -» Xm)), construida según la muestra X, es siempre, evidentemente, la estadis- 
" a 

tica suficiente, ya que fo(X) = ]] feu) = TÍ Sox). Esta estadística es “un poco más 
jm] koi 


económica” que la propia muestra x. De aquí, en particular, se deduce que cualquier estadisti- 
ca suficiente mínima es invariante con respecto a la permutación de las coordenadas x, en 
la muestra X. 

Si la densidad /+(x) es simétrica, o sea, fo( —x) = f(x) para todos 0, es evidente que existi- 
rá una estadística suficiente, un poco más “económica, que representa la población (xÍ, .... 
x3) ordenada en función de su crecimiento y que designaremos por S». 

Ejemplo 3. Si X € Ko.., o sea, si x, tiene densidad de distribución de Cauchy con paráme- 
tro Ó = o, 


o 
E A —————— 
dect (e + 0) 
la estadística Sy será la estadística suficiente mínima. 
En efecto, en este caso 


SAx) = (2) TI 0d + 02)7!, 


m1) 


así que 


Ln. - d+ 
JÁAxo) a xi + a 0) 
es la relación de dos polinomios de a”, la cual no depende de o si y sólo si los coeficientes 
de las potencias correspondientes de o? coinciden en el numerador y el denominador. Esto, 
a su vez, tiene lugar si y sólo si los conjuntos de “ceros” [—x%)] y [—x?] coinciden. Con 
otras palabras, para que (5) sea independiente de y es necesario y suficiente que ej punto 
xl m (xf, ..., 1%) tenga coordenadas que se distingan de las de 4 tan sóto por la permutación 
de sus lugares. Esto precisamente significa que Sy: es una estadística suficiente mínima. 
De manera completamente análoga se puede demostrar que Sy es una estadística suficiente 
mínima para el parámetro a y, por lo tanto, para el parámetro O = (a, u) de la distribución 
Ka... 
Otro ejemplo, en el que Sy será una estadística sifuciente minima, se obtiene si se examina 
la familia 


Po.0.0. == oaPa, + (1 En oyP.,, or € [0, 1], 


donde |P+) es una familia exponencial (véase $ 15, en calidad de P, se puede tomar la distri- 


150 CAP. 2 TBORÍA DB ESTIMACIÓN DB PARÁMETROS 


bución norma] o la distribución de Poisson) y donde al menos uno de los parámetros a, 
0,, 02 se desconoce. e 
Ahora demostremos un teorema que indica un método “estructural” 


simple de determinación de las estadísticas suficientes mínimas. 
Para simplificar la exposición examinemos el caso del parámetro unidi- 
mensional 0. 


Teorema 2. Supongamos que la función de verosimilitud fax), para to- 
das x como función de 0, es continua a la derecha (o a la izquierda). Enton- 
ces, si la estimación de v.m. Ó" es única y la misma es una estadística 
suficiente, entonces 6" será la estadística suficiente mínima. 


Demostración. Sea S una estadística suficiente arbitraria. Demostrare- 
mos el teorema si mostramos que 0* es medible respecto a o(S) y, por lo 
tanto, Ó” está subordinada a S. 

En virtud del teorema de factorización, 


Solo) = USC), HAGO c.s.[p”], (6) 


donde A(x) es la función medible en x, y y(s, f) es continua (a la derecha 
o a la izquierda) en t y medible en s. Como Pp, no variará si la densidad 
fe(x) cambia en el conjunto de la ¿"-medida O, podernos considerar que 
(6) es válida para todos x. 

En virtud de (6), el punto del máximo absoluto de fa(x) también es 
el punto E máximo absoluto para y(S(x), 6). Por eso, en virtud de la unici- 
dad de 9”, 


(0" <1] = [sup USO, 6) > sup US(X), 8). 


En vista de que Y(S(A), 9), para cada S(A, es continua en 0 a la derecha 
(o a la izquierda), existe un conjunto numerable, denso en todas las partes, 
9: = [0,)7=1 C O (igual para todos los S(X)) tal que 


sup HUSO, 0) e yuS(A), 0)). (7) 
0/€0. 


Esa misma relación será válida para la región de 0 > tf. Como y(S(X), 0;) 
son medibles respecto a o(S), en virtud de (7), los valores de sup US, 0) 
<s 


y sup US, 0) serán variables aleatorias también medibles con respecto a 


a(S). Por consiguiente, (0* < 1] € 0(S), y el teorema ya está demostrado. «< 

En la condición de la afirmación citada, la condición de suficiencia 
de la e.v.m. Ó* es esencial, puesto que la estimación de verosimilitud máxima 
$", como tal, no es obligatoriamente una estimación suficiente. Es fácil 
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obtener un ejemplo respectivo examinando cualquier familia de distribucio- 
nes (P¿), con parámetro escalar 6 y con estadistica suficiente mínima vecto- 
rial S(cuya dimensión es mayor que 1). En este caso la estimación de 
verosimilitud máxima Ó* también será escalar, así que la o-álgebra de 0(S) 
será más rica que c(6*) y, por lo tanto, la inclusión de 0(S) € 0(Ó”), que 
se desprende de la minimalidad de S y de la suficiencia de Ó*, es imposible. 

Ejemplo 4. Sea Y € Us. 1+0, O = R. Entonces, como hemos visto en 
el ejemplo 6.4, 


_ (1 para 0< xq) <Xm< 1 +0, 
JD = E en el caso contrario, 


así que f.(X) depende de X solamente a través de x(1) y Xq»). Esto significa 
que S = (X(1), Xq) es una estadística suficiente. Ni una de las magnitudes 
Xq)» X(a) POr separado es una estadística suficiente. Eso lo demuestran las 
relaciones siguientes: 


Pxa) > U, Xan) <v) = IT Po € [u, v)) = 


= (uy — uy” cuando u>0,v<1+0, v>u. 


Por consiguiente, la densidad compatible de distribución de (x¿1), X(»)) será 
igual a 


g(u v) = n(n — 1KXv - uy"? cuando u>0,v<1+0,v>u 
0 en los demás casos. 


Seguidamente, P(x1) >u) = (1 + 6 — u)” cuando 0 <€ u <£ 1 +0, así que 
la densidad de x(1) es igual a 


¿g(u) = n(1 +0-u)””! cuando 06< us 1 +0. 


De aquí ya es fácil obtener que la densidad condicional g(v/u) de la magni- 
tud Xq), a condición de xs) = u (y, por lo tanto, también la distribución 
condicional correspondiente), dependerá de 0. Esto significa que X(1, (al 
igual que x(»)) por separado no son estadísticas suficientes. Como en cali- 
dad de e.v.m. $" podemos tomar 6” = x(,) (véase el ejemplo 6.4, por lo tanto, 
hemos demostrado que para la familia Up +9, la ev.m. * no es una 
estadística suficiente. 

Mediante el teorema 1, el lector puede convencerse personalmente de 
que S = (X(1), X(m)) es una estadística suficiente mínima para Us. 1,0. 

La condición de suficiencia de Ó* en el teorema 2 será cumplida automá- 
ticamente si suponemos que existe una estadística suficiente escalar (para 
un O unidimensional) Sp, para la cual la función y en la igualdad Ó* = p(Sp) 
será biunivoca (o sea, Ó” y Sa serán equivalentes). 
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$ 14. Construcción de estimaciones eficientes 
por medio de estadísticas suficientes. 
Estadísticas completas 


Definición 1. La estimación 0” se denomina suficiente si es una estadística 
suficiente. 

1. Caso unidimensional. Supondremos aquí que Ó es un parámetro esca- 
lar. Sea K» la clase de todas las estimaciones 0” con desplazamiento b(0), 
asi que 9” €K» si a(0) = Me0* = 0 + b(0). Para 0” € K, tenemos 


Mo(0” — 0) = Mol0* — a(0)” + (a(9) — 0)? = Do0* + b*6). 


En este párrafo omitiremos, a veces, el índice O de los símbolos My, Dy. 
La siguiente afirmación fue obtenida independientemente por Black- 
well, Rao y Kolmogórov. 


Teorema 1. Sea S una estadística suficiente, 0* € Ks. Entonces la función 
05 = Mo(0"/S) es una estimación que posee las siguientes propiedades: 

1) 0s € Ko, 

2) 05 depende de la muestra tan sólo a través de S(X), 

3) Mo(05 — 0)? < Mo(0” — Oy* para todos 0. 
La última desigualdad se transforma en igualdad tan sólo si 0” = 05 cd. 
respecto a Po. 


Con otras palabras, en la clase K,, la aplicación de la operación My(:/S) 
a 6” mejora uniformemente la estimación 0”. 

Demostración. El hecho de que 0s es una estimación, significa que 05 
no depende de 9 y que es una función medible de X. Su independencia 
respecto a 6 se desprende de las propiedades de las características estadísti- 
cas, ya que la distribución de X para una $ registrada no depende de 9 
(Mo(0"/S), para la estadistica arbitraria S, hablando en general, depende 
de 6). Al mismo tiempo, en virtud de las propiedades de la e.m.c., 05 es 
una función medible de S y, por lo tanto, también de X. Por consiguiente, 
6s es la estimación que satisface la propiedad 2) del teorema. 

La igualdad 


Mo0s = MoMo(0”/S) = M0”, 
que demuestra que 05 € K,, también se deduce directamente de las propie- 
dades de la e.m.c. Seguidamente, 
Mo(0” — 0)? = Ma(0* — 0 + 053)" = Ma(03 — 0) + Mo(0” — 03) + 
+ 2M6(05 — 00” — 05). 
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Utilizando de nuevo las propiedades de la em.c., obtenemos 
Ms(05 — 00” — 05) = MoMol(0s — 0)0” — 05)/S] = 
= Mol(9s — 0)Ma(0” — 05/S)] = 0 
y, por consiguiente, 
Mo(0* — 0) — Mo(05 — 0) + Ma(0” — 05Y. a 


En realidad, la desigualdad 3) del teorema 1 se puede obtener directa- 
mente de la propiedad de la e.m.., (M(E/SY? < M(¿*/5S), ya que entonces 


(03 — 6) = [Mo(6” — 0)/5)1* < Mol(8* — 0)*/5), 
Mo(0S - 0 < Mo(0” — 0y. 


El hecho expuesto en el teorema 1 puede interpretarse del modo siguien- 
te Supongamos que S y T son dos estadisticas suficientes, 9” = p(T) y S 
está subordinada a 7, entonces Me(93 — 0)? < Mo(0* — 0). 

Con otras palabras, cuanto más “económica” sea la estadística suficien- 
te S (o cuanto más pobre sea la v-álgebra correspondiente), tanto mejores 
serán las estimaciones 0s. Así pues, para construir las estimaciones óptimas 
debemos buscar las estadísticas suficientes mínimas (o las o-álgebras míni- 
mas). En este caso, en calidad de estimaciones iniciales 0” también pueden 
figurar estimaciones “malas” que no poseen, por ejemplo, incluso propie- 
dad de validez. En este sentido es aleccionador el siguiente 

Ejemplo 1. Sea X € II,. La estimación A” = x,, evidentemente, no está 
desplazada MA” = Mx, = A (DA = 0) y no es válida, ya que no depende 
de n. La estadística suficiente mínima de A es la estadística S = nx = Dx;. 
Del ejemplo 12.1 se deduce que la distribución x, condicional respecto a 
S es la distribución Bi,, en el esquema de Bernoulli, con una probabilidad 
de éxito igual a 1/»: 


1 k 1 sk 
Pl = k/S = $) = (5) ( 2) k 
n n 


Por consiguiente, 


e k S-k 
A$ = M(x1/5) = 2403 (2) ( - 4) =d. Z. 


k 1 


En uno de los ejemplos ulteriores demostraremos que X es una estima- 
ción eficiente. 

2. Caso multidimensiona). Ahora obtendremos los análogos del teorema 
| para el caso multidimensional cuando 0 y 6” son vectores de R*. 

Al igual que en el caso unidimensional, el vector b(9) = Mo0” — O será 
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el desplazamiento de la estimación 0”, y por K, designaremos la clase de 
todas las estimaciones con desplazamiento b. 


Teorema 1A. Sea S una estadística suficiente y 0" € Ky. Entonces la esti- 
mación 0s = Mo(0* /S) posee las propiedades 

1) 05 € Ko. 

2) 0s depende exclusivamente de S(X), 

3) la dispersión estándar de 05 no supera la dispersión estándar de 0* 
o bien, que es lo mismo, para cualquier vector a € R* 


Mo(03 — 0, ay” < Ma(0” — 0, a). (1) 


Aquí, la igualdad (para todos los valores de a) es posible únicamente en 
el caso de 9” =0s cd. respecto a Po. 


Demostración. Las primeras dos afirmaciones son evidentes. Las desi- 
gualdades (1) se deducen del teorema |, puesto que todo se reduce al examen 
de las estimaciones unidimensionales (6”, a) del parámetro (6, a), y Me[(0*, 
a)/S] = (65, a). Si en (1), para todos los valores de a es válida esa igualdad, 
entonces, para cada a tendremos (65, a) = (6*, a) c.d. Esto precisamente 
significa que 65 = 0” cd. <a 

Ahora bien, en el caso multidimensional, las estadísticas suficientes de- 
sempeñan el mismo papel: la forma cuadrática > 0ya:a,, donde o = lo 
es la matriz de segundos momentos para 05 — 0, será tanto menor cuanto 
menor sea la o-álgebra de o(S) engendrada por S. | 

3. Estadísticas completas y estimaciones eficientes. Ahora citaremos un 
criterio muy simple del inmejoramiento de las estimaciones, basado en el 
concepto de plenitud de la característica S. Designemos por / la dimensión 
de la característica S. Esta suele ser mayor que la dimensión K del paráme- 
tro Ó o igual a ésta. 

Para dos funciones medibles fi(s) y fts):R'—>)R* escribiremos 
Fis) = fif[s) cd. [24], donde %es la familia de distribuciones en (R', B/) 
si fi(s) = f2(s) en todas las partes excepto el conjunto N tal que P(N) = 0 
para todas Pe 2 

Definición 2. La familia de distribuciones .4 = (Gp] en (R', B'), que 
dependen del parámetro k-dimensional 0 € O C R*, se llama completa si 
la igualdad 


bs) = Go(ds) = 0 cuando todos 9 € O (2) 


conduce a y(s) = O c.d. (4). La ecuación (2) se examina en la clase de fun- 
ciones y: R'>R* para las cuales existe la integral (2). 

Definición 3. La estadística S se denomina completa si la familia 4 de 
sus distribuciones Gps, inducidas por la distribución Py en (2”, BI, es 
completa. 


Y M, ESTADÍSTICAS SUPICIENTES Y ESTIMACIONES BFICIENTES ¡ss 


La ecuación (2) para las estadísticas puede ser escrita en forma de 
Moy(S) = O para todos 0€ 9 CR*. 


Teorema 2. La estadística S es completa si y sólo si para cualquier bo(0), 
la o(S).medible * estimación 0* es única en la clase de todas las «í(S)- 
medibles estimaciones de Kb. 

Si la a(S)>medible estimación es única en Ko, entonces las 0(S)- 
medibles estimaciones también poseerán la propiedad de unicidad en cual- 
quier otra clase K». 


La demostración de esta afirmación es casi evidente, ya que la existencia 
de dos o(S)-medibles estimaciones 0; = p(S) y 02 = p2(S) en K», significa 
que [eúsiGe(ds) = bol), i= 1, 2, 


[lss(s) — ea(sAGo(ds) = O para todos 06 € 8, 


así que la plenitud de S conduce a g,(s) = p2(s) cad. [4]. Al contrario, 
sea r(5)Ge(ds) = 0 para todos 09€ 0, 0 = p,(s) € Kp. Entonces 0 = 
wm pi(s) + y(s) € Ko, y la unicidad de la v(S)-medible estimación significa 
que y(s) = 0 cd. [4]. a 


Teorema 3. Si la estadística suficiente S es completa, y 0” € Kb, entonces 
la estimación 05 = Me(0*/S) es la estimación eficiente única en Ko». 

Este teorema nos ofrece criterios suficientemente simples de eficacia de 
las estimaciones. 


Demostración. En virtud del teorema (2), la o(S)-medible estimación 
en la clase K, es única, 

Sea 0*” cualquier otra estimación de XK». Entonces 95” = Me(0**/S) € K, 
y, por lo tanto, 85 = 05 cd. [4]. De aquí y del teorema 1 se desprende que 


Mo(03 — 0” = Mo(05" — 0 € Mo(0” - 0), 


y la igualdad es posible únicamente para 0*” = 65 c.s. a 
Corolario 1. Si S es una estadística suficiente completa, y 0” es una esti- 
mación no desplazada, entonces 9s es una estimación eficiente y es la única. 
Ejemplo 2. En el ejemplo 1, con distribución de Poisson, hemos obteni- 
do que para A” == x, 
As = Ma(1/S) = X 


donde S = nx. Mostremos que $ es una estadística completa y, por consi- 
guiente, X es una estimación suficiente. La ecuación (2) para la estadística 


A A O ed po Sy por eto rente: 
semable en forma de y(S), donde y es la función de Borel 
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S tiene la forma 


= k 
> yen? O = (O cuando todos A > 0, 


k.0 
o, que es lo mismo, 
k 
v() = > y) ST = ( para todos z > 0. (3) 


Es evidente que esto conduce a y(k) = O, ya que de la convergencia de la 
serie (3), digamos, cuando z = 1 se deduce que v(z) es analítica cuando 
Iz| < 1 y es idénticamente igual a O. Por consiguiente, los coeficientes y(X) 
de su desarrollo en serie son iguales a 0. 

Ejemplo 3. Sea X € Uo +. Mostremos que la estadística S = X(n) = 


e máx x, es completa. La suficiencia (y minimización) de S ha sido estable- 
$ 


cida en el ejemplo 13.2. La distribución de S se define por la igualdad 
P(S < 3) = (5/0Y, 0<sS<O0, 

así que S tiene una densidad igual a rs"”*9” * cuando s € [O, 4]. En este 

caso la ecuación (2) tiene la forma 


A ns?) 


gy) 7 ds = 0 cuando 06€ (0, 00). 


0 
De la igualdad press” lds = 0 para todos 6 resulta, evidentemente, que 


y(s)s”7! =0, y(s) = 0 cd. 
Le proponemos al lector que verifique si son completas las estadísticas sufi- 
cientes para otras familias paramétricas y, en particular, que determine si 


a =- ( —- a) es la estimación eficiente única del parámetro «a de la 


familia T,,, (véase 5 2). 

Señalemos ahora que el teorema 3 muestra la existencia de relaciones 
entre los conceptos de amplitud y minimización. En este aspecto es válida 
la afirmación siguiente, que da, junto con los teoremas del $ 13, el criterio 
de minimización de las estadísticas suficientes. 


Teorema 4. Cualquier característica suficiente completa S es una estadis- 
tica suficiente mínima. 


Demostración. Sea Up una s-álgebra suficiente mínima (según el teore- 
ma 13.1, ésta existe). Supongamos que MoS existe y examinemos la función 
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y = S — Me(S/Uo). Como Uo C a($), entonces y será o(S)-medible, así que 
y = yY(S). Designemos por Ga la distribución de S. Entonces es evidente 
que para todos 9, Mev(S) = O o, que es lo mismo, 


ws)IGa(ds) = (Q para todos 6 € O. 


E aquí, en virtud de la amplitud de £S resulta que y(s) = O c.s. [5], 
= (Go). Esto significa que S = Ma(S/Uo) c.d. [4] y, por lo tanto, $ es 
de respecto a” Uo, 0(S) = Uo. 

Si MaS no existe, es necesario, en vez de S, examinar la estadística 
arctg S, la cual es, evidentemente, equivalente a S en cuanto a las propieda- 
des de suficiencia, amplitud y minimización. «< 

Señalemos que la afirmación inversa no es cierta: la estadística suficien- 
te mínima no es obligatoriamente completa. Los ejemplos respectivos se 
obtienen fácilmente en los casos en que la dimensión 1 de la estadística 
es mayor que la dimensión k del parámetro 9. Por ejemplo, en el $ 13 hemos 
visto que la densidad compatible de la estadística suficiente mínima 
S = (Xa), Xu) para la familia Us 1 +4 es igual a 


_(aí(n-— Dv — uy"? cuando u>0,v<1+0, u>u, 
gol, 6) = E en los demás casos. 


Si se toma la función y(u, v) = p(v — u) y se hace la transformación 
ortogonal (v — u)/v2 = t, (u + u)/v2 = z, la integral en (2) por el triángu- 
louz0, v<1+0, uv > y) será igual a 


l 
fy(u, v)go(u, vidu do = n(n — Dele" AL — x)dx. 
0 


Es evidente que la integral en el segundo miembro no depende de 0 y es 
fácil elegir la función p(x) se 0 que la reduce a cero. 


$ 15. Familia exponencial 


Supongamos que € = (61, ...,0x) es un parámetro k-dimensional y que 
la densidad fe(x) es representable en la forma 


k 
Folx) = A(x) exp (Law) UN) + y ; (1) 


donde todas las funciones que entran en el segundo miembro son finitas 
y medibles. 


% Por Us aquí es necesario entender la v-álgebra completada por los conjuntos N, para 
los cuales P.(N) = 0 para todos 6. 
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Definición 1. Las familias de distribuciones ([P»), con densidad de este 
género, se llaman families exponenciales y se designan con el símbolo $ 

Para hacer que la representación (1) sea, en la medida de lo posible, 
unívoca, supondremos que las funciones a0(0) = 1, ar(0), ..., ax(6) son li- 
nealmente independientes en 9. 

Como veremos, las familias exponenciales ocupan un lugar especial en- 
tre las familias paramétricas de distribuciones, ya que para ellas muchas 
construcciones generales de la estadística matemática pueden ser realizadas 
en forma explícita. 

A veces se llaman familias exponenciales las familias de distribuciones 
de tipo más particular *, cuando ax6) = 0). 

A las familias exponenciales pertenecen, por ejemplo, las familias de 
distribuciones [SPa..-), (Ih)(Bp»), (Fa. ra] y una serie de otras. 

Ejemplo 1. Examinemos la distribución T'.,,. Su densidad y.,1(x) se 
puede representar en la forma 


A 
Ya MX) = ES E xtexp(A nx — ax + In y x>0, 


así que aquí se puede poner 


-1 
m0 
1 


= = E Y AR 
UL) = Inx, Ux(x) = x, Vía, A) = In To 
aa, N=h» ala, Asa - a. < 
La función de verosimilitud para X € P€dS”es igual a 
SAA) = expl (a(0), S) + nv(0)11 460, 


donde 
a(9) = (a1(0), ..., ax(0), S = (Si, ..., Se), 
S = YX) = 2 Uj(x0), 
(a, S) es el producto escalar. De aquí y del teorema 12.] resulta que $ es 


una función suficiente para $. Demostremos que $ es una estadística sufi- 
ciente minima. 


* En realidad, esto es lo mismo; llegaremos a una forma pertícular si realizamos la tran- 
aformación biunivoca y = y(0), y = y, ..., yr) sobre el parámetro 0, poniendo y, == qd0). 


4 15. FAMILIA EXPONENCIAL 159 


Como las funciones ay(0), UAXx), V(0) son finitas, la exponencial en (1) 
es siempre positiva. Esto significa que en calidad de distribución Q en el 
teorema 13.1 (con la que todas las P+ son absolutamente continuas respecto 
a Po = (P.Q(at)) se puede tomar la distribución concentrada en cualquier 
punto fíjado 6%. Por eso, del teorema 13.1 se deduce que la o-álgebra de 
Yo engendrada por la función 


nx, 0 = FS = expl(a(0) — a(8), 5) + ntV(0) — V(8%)) 
es la o-álgebra suficiente mínima. 
Teorema 1. La estadística S es una estadística suficiente minima. 


Demostración. De la independencia lineal de las funciones 1, a1(0), ..., 
ax(0) en O se deduce la independencia lineal a,(0) — ar(0%, ..., 
ax(0) — ax(0%). Esto significa que en O hay K puntos 6!, ..., 0* tales que 
los valores a;; = aí(4) — a,(0% forman una matriz A cuya determinante se 
distingue del cero. Esto significa, a su vez, que las ecuaciones (a(0) — a(6%), 
S) = Inr(X, %) - n(V(0)) - V(P), je 1, ..., k, son solubles unívoca- 
mente respecto a $ y, por lo tanto, «($) C o(r(X, 0); j = 1, ..., Kk) C Ub. a 

En el ejemplo 1 hemos examinado la distribución T' y establecimos que 
para ésta es válida la representación (1) cuando 0 = («, A) con las funciones 


Ul(x) = Inx, Uz(x) = x, 
aa, A) = A, mía, A) = —Q. 


Es evidente que las condiciones del teorema 1 se han cumplido y que la 
estadística S = (2Inx«, 2)xi) O bien, que es lo mismo, la estadística (Tx, 
Exy) es una estadística suficiente minima. 

Si reforzamos un poco las condiciones del teorema 1, entonces la esta- 
dística S será una estadística suficiente completa (en este caso la minimiza- 
ción de S se podría obtener como consecuencia de la plenitud). 


Teorema 2. Sea X € P€l Si la función a y el conjunto O son tales 
que a(0) traza un paralelepípedo k-dimensional cuando 0 recorre O, enton- 
ces S es una estadística suficiente completa. 


Es evidente que las condiciones del teorema respecto al paralelepípedo 
se cumplirán si el conjunto 9 es “sólido”, es decir, si contiene los puntos 
interiores (y junto con ellos también las esferas en R*, de radio bastante 
pequeño) y si en el entorno de cualquier punto “sólido” 6% las funciones 
af0) son linealmente independientes y suaves. Entonces la transformación 
a = a(0) transfiere el entorno del punto 6% al conjunto sólido. 

Es evidente que el ejemplo 1, con la distribución JT, satisface las condi.- 
ciones del teorema 2, ya que la estadística (Mx,, xi) es completa. 
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De un modo igualmente sencillo, el lector puede comprobar que para 
la distribución normal $.,.», la estadística (2xs, 2x1) también es una 
estadística suficiente completa. 

Demostración del teorema 2. En nuestro caso las funciones ys, 0) y 
h(x) en el teorema de factorización de Neyman — Fisher son iguales. a 


Ys, 0) = exp[ (a(0), s) + nV(0)), 
h(x) = Tí Mx). 
al 
Examinemos en (R*, B*) la medida que no depende de 9: 


v(B)= | hdd), 
S”*(B) 


donde S”?*(B) es el conjunto de todos los x para los cuales S(x) € B. 

Destaquemos en forma de lemas, las dos siguientes afirmaciones auxi- 
liares. 

Lema 1. La distribución Ge(B) = Po(S(X) € B) de la estadística S es | 
absolutamente continua respecto a v, y en el punto s tiene una densidad 
igual a Ys, 0). 

La demostración se deduce de la igualdad 


GAB)= | vYS(x), OH()u"(dx) = | Us Ovíds), 


S()eB seB 


la cual es consecuencia de la sustitución de las variables. < 

Lema 2. Sean Gi, ? Ga dos medidas a-finitas en (R*, 8*). En este caso, 
si fe“-9G (du) = je 2.2G (du) existen para todos los valores de a de cierto 
paralelepípedo I en R*, entonces G¡ = Gz. 

Demostración. Para simplificar los razonamientos examinemos el caso 
unidimensional k = 1 y supongamos que / = (x:lx]< a). Entonces 


hj(a) = je” *Gi(du), j = 1, 2, 


son funciones analíticas cuando la|< a. Además, para todos be R están 
definidas las funciones Az) = fe *2:G,y(du) de la variable compleja 
z = a + ib. Naturalmente que hy(Z) serán analíticas en la franja de ja|< a, 
-=w <b<o«, Como hi(z) = hx(z) en el segmento de la recta bu 0, 
la|< a, entonces h,(z) = h2(2) para todas z de la franja indicada. Por lo 
tanto, 


[Gi (du) = [e”“G2(du). (2) 
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Señalemos que en vista de que A10) = Grau) < eo, podemos considerar 
que G; son medidas probabilísticas. Del teorema de la correspondencia biu- 
nívoca entre las funciones características y las distribuciones (11], así como 
de (2), resulta que G, = G». 

Si el paralelepípedo 1l tiene la forma [x"|x — a| < «)], entonces conviene 
pasar a las medidas Gáídu) = e-"G;y(du). 

En el caso multidimensional k > 1, la demostración se realiza exacta- 
mente igual. < 

Ahora podemos pasar directamente a la demostración del teorema 2. 

Debemos demostrar que si y es una función medible en (R*, B*) y existe 


(w(s)Go ds) = () para todos 0 € O, (3) 


entonces p(s) =0 cd. [A, 4= [(Goloco. Sea p = p* — p”, donde 
p* >0. En este caso, de (3) se desprende [p* (s)Ge(ds) = [p” (s)Go(ds) 
o bien, en virtud del lema 1, 


[o* (5, Ov(ds) = [p” (sis Ovas), 
jo + (Se uds = lp” (ne* a(9)) v(ds). 


Si formamos las medidas J-finitas v* (ds) = gp* (s)v(ds), obtendremos 
[ee-dy* (ds) = fee-dy> (ds) 


para todos los valores de a de cierto paralelepípedo en R*. Sólo nos queda 
hacer uso del lema 2. «< 

Corolario 1. Si Y 6 P€ 6; 0" €K, y se cumplen las condiciones del 
teorema 2, la estimación 03 = M(0"/S) es la estimación eficiente en Ko;. 


$ 16. Desigualdad de Rao — Cramer y 
estimaciones R-eficientes 


1. Desigualdad de Rao — Cramer y sus corolarios. Los resultados de los 
párrafos precedentes nos proporcionaron varios criterios de eficacia de las 
estimaciones. Sin embargo, estos criterios tenían, en cierto sentido, un ca- 
rácter cualitativo. En este párrafo continuaremos el estudio de la cuestión 
acerca de las estimaciones eficientes, pero desde un punto de vista un poco 
diferente. Aclaremos, ante todo, cuál es el valor mínimo del error estándar 
que se puede obtener. 

Al principio examinaremos el caso unidimensional cuando 0 es un pará- 
metro escalar. Con respecto al conjunto 8, para precisar vamos a suponer 
que eso es un intervalo finito o infinito, cerrado o abierto. 


118030 
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Para responder a la pregunta planteada necesitaremos las condiciones 
de regularidad en fe(x). Sea, como antes, 


HKx 0) = Info), L(X, $) = S 0, 0), a(6) = Mo0” = 0 + b(06). 
do 1 


Supongamos que se ha cumplido la condición (R). Las funciones 
Vfotx) para c.t.[u] valores de x son continuamente derivables respecto a 
08€ 0, y la integral 


Yé boy a ? 2 
10) | LEC pa) = Mel, ON 0 
existe y es positiva y continua según 0. (Aquí y en lo sucesivo, la tilde signi- 
fica la derivación respecto a 0). 

Con arreglo a la integral (1) es necesario señalar lo siguiente: Si x, junto 
con su entorno, no pertenece al portador Nr, = ([x;¡fe(x) > 0] de la distri- 
bución P+, entonces la función subintegral Vic /foLo) se convierte en 
indeterminación de tipo 0/0. Convendremos en considerar esta razón igual 
a cero. Seguiremos esa misma regla en cuanto a la derivada /'(x 
0 = f6D/fe(x), al integrarla. Podríamos no hacer estas restricciones si des- 
de el principio eximinaramos las integrales de la forma de Mop(Xx1. 0) sólo 
en la región de Np,. 

La función /(0) es conocida con el nombre de información de Fisher 
y desempeña un papel muy importante en la matemática estadística, ade- 
más, en lo sucesivo tropezaremos repetidas veces con ella. Algunas propie- 
dades de la función /(6) se examinan en $ 17. 

Si el conjunto O es compacto, la continuidad de I(0) en las condiciones 
(R) es equivalente a la condición 


sup Mo([/" (1, 01% "Gu, 01> N) > 0 


cuando N — oo, la cual se puede llamar convergencia uniforme de la inte- 
gral /(0) (véase el Suplemento VI). 


Tiene lugar la siguiente desigualdad para la varianza de las estimaciones 
0” con desplazamiento b. 


Teorema 1 (desigualdad de Rao — Cramer). Si 0" € K, y si está cumplida 
la condición (R) y MA(0*)! < << w, entonces 


. 2 
Do” > Aa (2) 


Si en dicha desigualdad se alcanza igualdad en cierto segmento 0 € [01, 
02] C 9, y D¿0” > O en ese segmento, entonces la función de verosimilitud 
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fAX) para 0 € [6,, 02] es representable en la forma 
SO = expr AO) + BO) AAO, (3) 


donde A(6), B(0) no dependen de X. 
Al contrario, si 6” = const, o si es válida la representación (3), entonces 
en la desigualdad (2) se alcanza igualdad, 


Evidentemente, la condición (3) significa que la distribución en :2” con 
densidad fo(x) pertenece a la familia exponencial E” 
Corolario 1. Si se cumplen las condiciones del teorema 1, 


*_ mo 1 +51? 2 
Mo(0 0” > <= + b*“(0). 


Para cualquier estimación no desplazada 0", 


1 


. 2 
Moe(0 — 6) 2-10 * 


Así pues, en las clases K;,, el valor mínimo posible de las desviaciones 
estándar es distinto de cero y se define por los segundos miembros de las 
desigualdades escritas. 

Observación 1. En cuanto a la condición Mo(0*)? < c < vo se puede no- 
tar que cuando Mo(0*)* = vo se cumple D48 = co y la desigualdad (2) se 
vuelve trivial. En virtud de (2), la condición D+0 > O se puede sustituir 
por (1 + b*(0))* > 0. 

Observación 2. A la par con la condición (R) se pueden señalar algunas 
otras condiciones que aseguran la afirmación del teorema 1 y que se distin- 
guen muy poco una de otra. Nos hemos detenido en aquellas de ellas que 
nos serán más cómodas en los párrafos posteriores. Las condiciones de 
tipo algo diferente se citarán en el $ 22. 

Necesitaremos una afirmación auxiliar. 

Lema l. Supongamos que se ha cumplido la condición (R) y que 
S = S(X) es cualquier estadística para la cual MaS? < e < «o cuando 9 € O. 
Entonces la función 


as(0) = MeS = | Sox)" (dx) (4) 
es derivable respecto a 0, además 
a$(0) = [SYH)p"(dx) = MOSL*(X, 0). (5) 


Esta afirmación tiene carácter técnico y su demostración dificultaría 
considerablemente las investigaciones. Por eso hemos pasado la demostra- 
ción del lema 1 al Suplemento VI. 


11 
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Demostración del teorema 1. Poniendo en (5) S = 1, obtenemos 
as(0) =] l, 


MoL”* =0, Moa(d)L” =0. (6) 
Volviendo a utilizar (5) para S = 6” y (6), obtenemos 
Mo0"L* = a'(0), Mol0” - a(9N)L” = a* (0). (7) 
Según la desigualdad de Cauchy — Buniakovski, 
(a* (0) < Ma(0* — a(0)Ma(L y (8) 
o bien, que es lo mismo, 
Ds0" > (1 AT oz. (9) 


Como las variables aleatorias /, = 1” (x;, 6) son independientes, están 
igualmente distribuidas y tienen, en virtud de (6), una esperanza matemáti- 
ca nula, Ma/; = 0, entonces Moel;l; = O cuando ix j, 


2 
Mo(L'Y = Mo (31) = 2:Moliy = nMelí = nI(0). 


Junto con (9) esto demuestra la desigualdad (2). 

Demostremos ahora la segunda afirmación del teorema. Para simplifi- 
car la demostración consideraremos que O coincide con [9,, 62] y que la 
medida y está concentrada en la unión de los portadores de Po, 0 € O. El 
signo de igualdad en (2) (o en 8)) quiere decir que 


1/2 
jo” - aovicorias >| | — arica LEE sra | 
Se(x) 


para todos 0 € O, En vista de que la primera integral en el segundo miembro 
es positiva, la igualdad escrita sólo será posible si 


SiO fox) = c(0N0” — AN ct. [u”). (10) 
Designemos por 4 el conjunto de x para los que está cumplida (10) y 
J9*| < co, Entonces u(4) = 0 (A es el complemento a 4). Anotamos x € A. 
En virtud de la continuidad fe(x) en 0, tendremos f(x) > O en cierto inter- 
valo (f1, f2) C O, y en este intervalo, en virtud de (10), 

L'(x% 0) = c(0X0” — a(0)). (11) 
Señalemos ahora, que de (7), (11) y (2) resulta 


a" (0) = Me(9” — a(O)L' = c(0)D40”, Do0” = EL, (12) 
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_./ 210) 

o = Y, 
así que D0” es continua en 9 junto con a'(6), 7(0), y [c(9)| junto con a(0) 
están limitadas uniformemente en [0,, 62]. La derivada £ * (x, 0) en (11) posee 
esa misma propiedad. Pero esto significa que L(x, 1) es finita y que 
fa(x) > Ó en todas las partes de O = [6,, 02], así que (11) es válida para 
todos 6. Integrando (11) dentro de los límites de 6, y 6, obtendremos 

9 


0 
A 


que es equivalente a (3) para [u”) c.t. x. Como la variación fs(x) en el con- 
junto de la ¿”.medida O no tiene importancia, (3) queda demostrada. 

Examinemos ahora la última afirmación del teorema. Si 9” = const, en- 
tonces b*(0) = — 1 y ambos miembros de la desigualdad (2) se anulan. Su- 
pongamos que se ha cumplido (3). Entonces, derivando la función Z(X, 
0) respecto a 6, obtendremos 


L'(X, 6) = 0'4'(0) + B'(0). 
De (7) se deduce que a(0)A '(0) + B*(0) = 0. Por eso 
L'(X, 0) = A'(010" — a(0)) 


y, por consiguiente (véase (10)), en (2) se alcanza la igualdad. «a 

En lo sucesivo excluiremos de las investigaciones el caso trivial 
6” = const y supondremos que D+6* > O en todas las partes de O. Entonces 
es válido el 


Corolario 2, Si se cumplen las condiciones (R), para alcanzar la frontera 
inferior en la desigualdad de Rao — Cramer es necesario y suficiente que 
la estimación 0* sea suficiente y que la función y(0*, 0) en la igualdad de 
Jfactorización tenga la forma 


0”, 0) = exp10A(0) + B(O)), 


donde A(0) y B(0) son funciones derivables. 

Corolario 3. Si se cumplen las condiciones (R), 0” € K,, y en la desigual- 
dad de Rao — Cramer se alcanza igualdad, entonces 0” es una estimación 
eficiente en Kb. 

Esta afirmación se deduce de la representación 


Ma(0* — 6)? = Do0* + b?(6). 


Señalemos que, hablando en general, lo contrario no es cierto: la estimación 
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(1 + "(09 


puede ser eficiente en K;,, pero la frontera inferior AO) 


para 


la varianza puede no alcanzarse. a 

Ejemplo 1. Sea Y € PF. 1. Aquí fa(X) = a”e” “”, Las condiciones (R) 
en la región O € [a >6 > 0) están cumplidas. Es evidente que S = nX es 
una estadística suficiente completa. Por eso la estimación 
a* =x7*= Ma(x '/S) es eficiente en la clase K, con un desplazamiento 
bla) = Max”! — a. 

Notemos ahora que S e P..,, asi que cuando n > 1 (véase el $ 2), 


M.x"'=»nM.S7!1=-*%- a. 
n-1l 


Ahora bien, la estimación a”” = ¿A a (a -- no estará 


desplazada cuando n > 1. Análogamente, cuando n > 2 hallamos (véase 
el $ 2 y también ejemplo 4.1) 


Mala "Y o (1 — IPM4S7?= 2 e 


n-2"' 
Así pues, cuando r > 2, la estimación a”” es eficiente. Sin embargo, el crite- 
rio (3) no se ha cumplido, ya que 
10,9) = q "e-aln-Ma”. 


Por consiguiente, en la desigualdad de Rao — Cramer no se alcanza la 
frontera inferior. De esto también podemos convencernos directamente. En 
efecto, aquí /(x, a) = In « — ax, l'(x, a) = l/a—-xe 


2 
, l 1 2 1 
Ka) = Mal[l'(X1, ad] = Me (2 = x3) ale= ip db bes mbutes 
Por lo tanto, cuando nr > 2, 


1 a? a? 
OI 


Ahora bien, el logro de la frontera inferior en (2) es una exigencia más 
severa que el logro de la eficacia. 

2. Estimaciones R-eficientes y asintóticamente R-eficientes. Suponga- 
mos que se han cumplido las condiciones (R). En este caso, el logro de 
la frontera inferior (exacto O asintótico) para la varianza en la desigualdad 
de Rao — Gramer puede ser un índice muy importante de la calidad de 
las estimaciones, íntimamente ligado al concepto de eficacia. 
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Definición 1. La estimación 0* € K,, para la cual 


e_ 2_ (1 + b'(0y 2 
Mo(0 6) AÑO) + b*(0), 
se llama R-eficiente (o regularmente eficiente) en la clase Kb. 
La estimación R-eficiente en la clase Ko de las estimaciones no desplaza- 
das se denomina simplemente R-eficiente. 
La estimación 0” se denomina asintóticamente R-eficiente (a.R-e.), si 


+ pz _ 1+o(1) 
Mo(0 0) TIO 

Vemos que a diferencia de las definiciones del $ 8, que tenían un carác- 
ter más cualitativo, las definiciones de R-eficacia se basan en la compara- 
ción con los valores numéricos conocidos, relacionados principalmente con 
la información de Fisher, mejor dicho, con la cantidad (nX(0)) 7 ?. 

Para la R-eficacia de 0” es necesario y suficiente el cumplimiento de (3). 

De lo dicho más arriba se deduce que las estimaciones R-eficientes son 
eficientes, pero no al revés; las estimaciones R-eficientes simplemente exis- 
ten con menos frecuencia, lo cual no es un defecto de las estimaciones, 
sino de la frontera inferior en la desigualdad de Rao — Cramer. 

En los actuales manuales de estadística matemática, las estimaciones 
R-eficientes se llaman simplemente eficientes. No obstante, creemos que 
es más natural conservar el término «eficacia» para las mejores estimacio- 
nes en un sentido más amplio (véase la definición 8.1). 


Teorema 2. Si se han cumplido las condiciones (R) y existe la estimación 
R-eficiente, entonces esta última coincide con la estimación de verosimilitud 
máxima. 


Demostración. Ya hemos visto que el cumplimiento de (3) conduce a 
la igualdad (véase (11)) 


L'(X 0) = (6* — 0)c(0). 
Además, como b(9) = 0, de (12) resulta 
c(0) = 1/Dp0" = ni(0) > 0 


para cualesquier 0 € O. Esto quiere decir que L “(X, 0) < 0 cuando 4 > 6”, 
y que Z'(X, 6) > 0 cuando 6 < 0”. Por consiguiente, cuando 6 = 0” se al- 
canza el máximo Z(X, 6). <a 

El ejemplo 1 citado más arriba muestra que, a diferencia de las estima- 
ciones R-eficientes, las estimaciones eficientes pueden no coincidir con las 
ev.m. En este ejemplo, la e.v.m. es (Xx) 7 *, mientras que la estimación eficien- 
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te es igual a E (G)7!. Estas dos estimaciones son, evidentemente, las 


estimaciones a.R-e. 


Examinemos la clase Xo de las estimaciones 9”, para las cuales, cuando 
n—oe, 


ID(O)]|< £(0, n) vn, |b'(0) <e(0, n), 
M0 <c<o 


para Cierta función e£(0, nr) = o(1) cuando n—+o y cuando cada 8 € O. 

Cada una de estas clases es notable por el hecho de que para ella la 
frontera inferior en la desigualdad de Rao — Cramer tiene la forma 
(1 + o(1)/(n1(6)]. En el $ 20 veremos que en una serie de casos, al hallar 
las estimaciones asintóticamente óptimas, es posible limitarse al estudio 
de las estimaciones 0” de tales clases. 


Teorema 3. Supongamos que se han cumplido las condiciones (R). En- 
tonces, cualquier estimación a.R-e. de Ko es la estimación. ae. en Ko. 


La demostración del teorema es evidente: si 0í es la estimación a.R-e,, 
entonces 


+ _p2_ 1+o0() 
Además, como ya hemos señalado, según la desigualdad de Rao — Cramer, 
para todos 0”€ Ko, 


lm inf Men(0” — 6)? > 1710) = lim Mon(0! - 0?. <a 
ad] rAa*o 

También está claro que si existe la estimación a.R-e., cualquier estima- 
ción a.e. en KR, será la estimación a.R-e. 

Más tarde (véase el $ 25) veremos que con ciertas suposiciones adiciona- 
les, las estimaciones a..R-e. existen siempre y, por consiguiente, la afirmación 
del teorema 3 también es válida en dirección inversa: la estimación a.e. en 
Ko es la estimación a.R-e. o sea, para ella Ma(0* — 6)? — |nI(0)| 7 *. 

Teorema 4. Supongamos que se han cumplido las condiciones (R). Si 


01, 03 pertenecen a Ko y son las estimaciones a.R-e., ellas son asintóticamen- 
te equivalentes en el sentido siguiente: 


vn(07 — 03) ps O. 
La demostración de esta afirmación se efectúa exactamente igual que 


en el teorema 8.2. Como 0* = (6; + 0D/2 € Ko, entonces, basándonos en 
(8.11) y en la igualdad de Rao — Cramer, obtenemos 
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lim sup Men(0; — 6 <0. a 


An. 


Ejemplo 2. La estimación a” = X del valor medio a de la población 
normal €. . para o” conocida es la estimación R-eficiente. Es fácil con- 
vencerse de esto, comprobando, por ejemplo, la condición (3). Otra posibili- 
dad consiste en comparar D,a'* =0*/n con el valor mínimo posible 
(ni(a))” ' de las varianzas de las estimaciones no desplazadas. En nuestro 
caso, 

IG, a) = —In V2x a — (x — ay /(20?), 
(x a) = (x- a/a”, 
[(a) = Mal! (a, 0)? = Max: — a)/0 = 1/0, 


así que D¿a* = (ni(a))”* = a?/n. 
Ejemplo 3. Examinemos la estimación 0* = Si = z Y (u — ay? del pa- 
jul 


rámetro 6 = o? de la población normal con a conocido. No es difícil calcu- 
lar que D+0* = Mo(0* — a*Y = 20*/n. Por otro lado, aquí 


> 
Vx, 6) = - a a 


160) = Moll'(<1, OP q Mel — a? 0 Le 
Ahora bien, aquí también Ds0* = (ni(6))7*, y la estimación 0” = Si 
es R-eficiente, 
La varianza de la estimación no desplazada Sí = > a ] No - xy 
, ASÍ que la misma no es R-eficiente o simplemente no 


es igual a > 


a | 
es la estimación eficiente de o?. Al mismo tiempo es evidente que Si es 
la estimación a.R-e. 


Si en calidad de parámetro desconocido estimamos no a” sino d = o, entonces no obten- 
dremos la estimación R-eficiente. Sin embargo, la estimación no desplazada de « será la esti- 
mación 


M.S = 


o 1 
y Mo. == Y - a), 


> Hs — a)? tiene la distribución Ha — T,/2../2, por eso (véase el $ 2) 


%]- 
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n+1 
T Mei 
ov2 2 
2 
Como S es la estimación suficiente completa y mínima, o” es la estimación eficiente. Con 


ayuda de la fórmula de Stirling no es dificil convencerse de que o* = S(1 + O(1/n)). 
Comparemos ahora la magnitud D,o* con la frontera inferior (n/(0))”*. Tenemos 


(E) li] 3 


Por otro lado, aquí 


M.S = ; Moo” = 0 


Ko) = Mo[I'(u, DY = le A +. 
o 


así que (n/(0))”' = a?/(2n). Pero este valor se distingue de (13). Su relación, por ejemplo 
para n = 3, esigual a 0,936. Ahora bien, aquí no hay estimaciones R-eficientes. Cuando n= 00 


el coeficiente de a? en (13) se comporta asintóticamente como = +0 (2) , así que o” 
A 


es la estimación a.R-e. 


3. Desigualdad de Rao — Cramer en el caso multidimensional. En este 
apartado 9 = (061, ..., 0x) es el vector K-dimensional, al igual que también 
la estimación 6” = (61, ..., 0%). Como antes, pongamos 


a(9) = Mob” = 0 + B(0), D(0) = (b1(0), ..., bx(0)) 
y examinemos las clases Ky¿ de las estimaciones con un desplazamiento 
registrado b(6). 
La generalización de las condiciones (R) para el caso muhidimensional 
tendrá el aspecto siguiente. Designemos 


165 6) = log fa(x), Mos 0) = 5 1% 0, 


1110) = Molix1, Olf%1, 0) 


y supongamos que se ha cumplido la condición 
(R). Las funciones V f(x) son derivables continuamente respecto a 0; 
para c.t. [u] valores de x. La matriz 


160) = HO), 
LU(0) = Ylios OJOS Mfeoutdx) 
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es continua en 0”, y su determinante |K(9)| es distinto del cero, 

Como /(6) es la matriz de segundos momentos Mel,!; de las variables 
aleatorias /, = /Ax1, 0), ella será una matriz definida positivamente, ya que 
para cualquier vector xx = (aj, ..., ax) 0 se cumple 


> a0yMolil, Me(Zaili)?> 0, 


donde la igualdad a cero se exluye por la condición |/(0)| + O. 

Como antes, por desigualdad entre las matrices dj > 0 entenderemos 
la desigualdad acia” > acia para cualquier vector fila a « (ar, ... 
a) O. Esto equivale, evidentemente, al hecho de que la matriz 01 — 0 
está definida de forma no negativa. La desigualdad estricta corresponderá 
a la definición positiva, así que, por ejemplo, /(0) > 0. 

Teorema 1A. Sí 0” € XK, y si se cumple la condición (R) entonces para 
la matriz de segundos momentos o” = loy] = Mo(0* — a(0)7(6* — a(0)) de 
cualquier estimación 0” del vector fila 9 es válida la desigualdad 


a > (E + D(O)I7 ONE + D(O))”, (14) 
donde E es la matriz nidad: DO) = lby(0), d(0) = A 


Sea joj? > 0 (o bien |E + D(0)| > 0) para todos 0. En este caso el signo 
de igualdad en (14) se alcanza si y solo si la distribución de la muestra 
pertenece a una familia exponencial de tipo especial, o sea, cuando para 
ciertas funciones escalares B(0) y h(X) se cumple 

SfUX) = exp[ (0”, A(0) + B(0))h(A), (15) 


donde el vector A(9) = (A1(0), ..., Axt(0) tiene una matriz de derivadas 
igual a 
de 2] 2 + 00 Yo 


Es evidente que para las estimaciones no desplazadas 0”, 
o” > (nK0)”' 
y la igualdad es posible únicamente cuando se cumple (15), donde 
Mu > 11(0). 


Ahora bien, si logramos hallar la estimación no desplazada 06” con una 
matriz de segundos momentos [17(0)] 7 *, ella será una estimación eficiente. 


% Para esto es suficiente exigir la convergencia uniforme de /(0) (véase el Suplemento 
YD. 
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En el caso multidimensional conservan su validez todas las observacio- 
nes hechas con arreglo a la desigualdad unidimensional de Rao — Cramer, 
así como la definición de R-eficacia, en las que deben introducirse tan sólo 
las modificaciones evidentes relacionadas con la dimensión de 9, 

En particular, llamaremas estimaciones a.R-e. las estimaciones 9” para 
las cuales 


Mo(0* — 01(0" - 6) = a? + YODL(O) = (nI(O) 7 * + o(1/n). 
Aquí el análogo del teorema 2 tendrá el aspecto siguiente. 


Teorema 2A. Supongamos que se cumplen las condiciones (R). Si 0” 
es la estimación R-eficiente, entonces ésta es la estimación de verosimilitud 
máxima. 


Demostración. Para demostrar que la estimación R-eficiente constituye 
el único punto del máximo, es suficiente convencerse que L'(X, 0%) =0 
y que cuando 0 =0" + u usx0, 


(grad L(X, 0), u) = (L'(X, 0), 06 — 6) <0. 


Pero en el caso de existencia de la estimación R-eficiente, se cumple (véase 
(0) 
L'(X, 0) = (0* — On1(0), 


de donde se desprenden inmediatamente las relaciones requeridas. La se- 
gunda se deduce del hecho de que 


(L”, u) = —uni(0yu?, 


donde ul(6)u” es la forma cuadrática definida positivamente. «< 
Ejemplo 4. Examinemos una familia biparamétrica de distribuciones 

normales €..-. La misma pertenece a una familia exponencial, ya que 

(aquí 6 = (8,, 02), 61 = a, 01 = 0”) 

E eo xa de 

Ñ o [ii 


— ya 


- Xx a E pa (2 - y) es eficiente, puesto que pertenece a Ko, y 


la estadística (2x1, 2xf), como hemos visto en el $ 15, es la estadística 
suficiente completa (véase el teorema 14.4). 


100 = 


La estimación 0* = (01, 63), donde 0 =x, 0] = Sí = 
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Señalemos que 
Mo(0” — 01(0" — 0) = a” + d»*(0)(0). 
Demostración del teorema 1A. Designemos 


Lj= LK, 6) = 240 0), L' =L(X 0 = (Uf, ..., Ek). 


Entonces, de un modo completamente análogo al caso unidimensional, 
establecemos que son válidas las igualdades 
MelAx1, 6) = 0, MAILAX, 6) = 1 + by(0) 


en las cuales b,,(9) son continuas o bien, que es lo mismo, las igualdades 


Mol ' =0, (16) 
Mo(0*YL' = E + D(0) (17) 

en las que la matriz D(0) es continua. De aquí obtenemos 
Mo(0" - a(0)TL' = E + D(B). (18) 


Demostremos ahora la desigualdad siguiente (variente matricial de la desi- 
gualdad de Cauchy — Buniakovski). 

Lema 2. Supongamos que E y y son matrices e igual dimensión (no 
obligatoriamente cuadradas) con elementos aleatorios, y que la matriz 
Mn” tiene inversa. Entonces 


MEE” > Món (Man”)” 'Mué”. (19) 


En este caso la igualdad es posible únicamente cuando E = zn, z= 
= Min (Man”) 7”. 

Demostración. En vista de que para cualquier matriz A es válida la 
desigualdad AA” > 0 (44” está definida no negativamente), entonces 


0 < M(E — znKE — 29)” = MEL” — 2Mn¿” —- Mén*z? + z2Mpyn?2z7 
Poniendo z = MtEn*'(MmmD) 7 ', obtenemos la desigualdad requerida. 

La afirmación con respecto a las condiciones de la igualdad en (19) es 
evidente. 


Volvamos a la demostración del teorema 1A. Pongamos, en (19), 
E = (0* — a(0), y = (L')”. Entonces 


Mott” = Mo(0” — a(8y*(0* — a(0) = do”. 
De (16) y de la desigualdad de x, obtenemos 
Mon? = Ma(L "Y L* = nI(0). 
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Por último, de (18) hallamos 
Mein? = Me(0* — a) L' = E + D(O). 
La desigualdad (14) queda demostrada. 


La desigualdad en (14) es posible en virtud del lema 2, si sólo para los 
puntos (x, 0), tales que fo(x) > 0, es válida 


(0* — a(0y” = (E + DIO)AAI(O)” (Ly 
o, que es lo mismo, 
L' = (0 — a(0)n(E + DO)” *1"1(0). (20) 
Nótese ahora que de la desigualdad en (14) resulta 
¡E + D(O)? = njo”|- (0), 


y la separación del determinante |o?*| de O quiere decir lo mismo para 
E + D(0)| y significa la existencia de la matriz inversa (E + D(0))7* uni- 
formemente limitada. Por eso la derivada L” en (20) será limitada, y 
fi(x) > O en todas partes de O y la misma igualdad (20) será válida en 
todas partes de 6. Si ahora s es cualquier camino que une los puntos 0; 
y 0 en la región 9, entonces 


L(X, 0) = [(L”, ds) + L(X, 00), 


donde ds significa el elemento vectorial del camino s; ((L”, ds) = (L”, 
s'(Dl es el incremento L(X, 0) en dicho camino; y /, la «longitud» del 
camino recorrido. Por consiguiente, en virtud de (20), 


L(X 0) = 0"A(8) + B(9) + HO, (21) 


donde B(6) y H(X) son funciones escalares; 4(9) = (41(0), ..., Ax(0)) es 
un vector que depende exclusivamente de sus argumentos. Esto significa 
la validez de (15). 
Si se cumple (21), entonces 
L' = 'lWd + B'(0), 
donde, en virtud de la igualdad MyL * = 0, es válida 
B'(6) = — a(0)Aul. 


Multiplicando ambos miembros de la igualdad L' = (6” — a(0) 144, a la 
izquierda en (0* — a(0))”, obtenemos, en virtud de (18), que para el cumpli- 
miento de la condición (20), que significa la igualdad en (14), debe cum- 


irse 
dl My > n[(E + DIO)” *171(6). < 
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En el caso multidimensional conservan su validez todas las observacio- 
nes hechas con arreglo a la desigualdad unidimensional de Rao — Cramer, 
así como la definición de R-eficacia, en las que deben introducirse tan sólo 
las modificaciones evidentes relacionadas con la dimensión de 6. 

En particular, llamaremas estimaciones a.R-e. las estimaciones 0” para 
las cuales 


Mo(0” — 0) (0" — 0) a 07 + 9Y(0)b(0) = (REO) 7* + o1/n). 
Aquí el análogo del teorema 2 tendrá el aspecto siguiente. 


Teorema 2A. Supongamos que se cumplen las condiciones (R). Si 0” 
es la estimación R-eficiente, entonces ésta es la estimación de verosimilitud 
máxima. 


Demostración. Para demostrar que la cstimación R-cficiente constituye 
el único punto del máximo, es suficiente convencerse que L'(X, 0”) =0 
y que cuando 0 =0" + u, u x0, 


(grad L(X, 0), u) = (L'(X 0), 0-0) <0. 
Pero en el caso de existencia de la estimación R-eficiente, se cumple (véase 
(20) 
L'(X, 0) = (0” — 0jn1(0), 


de donde se desprenden inmediatamente las relaciones requeridas. La se- 
gunda se deduce del hecho de que 


(L', uy) = —unI(Qyu*, 


donde uf(0)u” es la forma cuadrática definida positivamente «< 

Ejemplo 4. Examinemos una familia biparamétrica de distribuciones 
normales 9... La misma pertenece a una familia exponencial, ya que 
(aquí 0 = (01, 02), 61 = a, 02 = a?) 


su = 7 € e 


xa a? 


Ar e EZ Gn o). 


La estimación 0* = (9;, 6%), donde 0 =X, 0 = S$ = po A S = 


n-— 1 


la estadística (2x1, 2x7), como hemos visto en el $ 15, es la estadistica 
suficiente completa (véase el teorema 14.4). 


fm] 
- x)* = 1 (+ - *) es eficiente, puesto que pertenece a Ko, y 
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La estimación de verosimilitud máxima Xx tx — xy ] se distin- 


gue de 9* sólo por el factor 47 ! 


de la segunda coordenada, debido a 
lo cual la misma permanece desplazada. Para la estimación elegida 0”, la 
representación exponencial especial (15) de la función f+1(A no se realizará, 
ya que 


10) = 00 "pl - LD a 5 — ino] 


no? 


A E 0 - —_ 0 — + 01y - 45 - nino]. 


Esto significa que en la desigualdad multidimensional de Rao — Cramer 
no será alcanzada la frontera inferior. 
El elípsoide de dispersión mínimo, definido (según el teorema 14) por 
la matriz 7(0) (o 17 *(0)), se alcanzará sólo asintóticamente cuando > «e, 
así que la estimación 0”, sin ser R-eficiente, será la estimación a.R-e. Cercio- 
rémonos de ello directamente. 
Calculemos al principio la matriz 7(0). Tenemos 
/ _(GA-a) _ (Ga 1 
liG0 0) SEA (2% 0) ICY y 
(recordemos que /í no es derivada respecto a a sino respecto a o”, comparen 
esto con el ejemplo 3). Por eso 


H1(0) = Mo al - a 


-. 3 — 
100) = 2460) = Me| EL - 2] 0, 


Bx(0) = 7 Mol — ay? — a]? = SA : 


De aquí hallamos 


A A /n 0 
(MI0)"* = | 
0 al y (22) 


Calculemos ahora, para comparar, la matriz de segundos momentos 
centrales de la estimación 0”. 
Tenemos 


M0 0 e Mato, 


Mo(02 — 01) = Ma(Si — 07)? = ze T+* 


Mo(01 — 61 X02 — 02) = 0. 
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Las dos últimas ecuaciones se calculan directamente. Examinemos, por 
ejemplo, la segunda de ellas. Es suficiente convencernos de que 
Mo(X — 0383 = 0. (23) 


Pero 
1 
n- 1 


Só = 


[260 - 0) -  - 0)”], 
X - a)Sí = mu=y (20 — a)] [26 - ay] = Sy X — ay?. 


En vista de que 
Mo(A — a)? = Melxi — a)? = Molx; — ax — a)” =0, 


(23) queda demostrada. 
Ahora bien, la matriz de segundos momentos 0” — 0 es igual a 


o/n 0 
O 20 /(n-1 Y 


Por supuesto que la diferencia entre esta matriz y la matriz (n1(0))7 ' puede 
ser considerable sólo para pequeños valores de n. 

4. Algunas deducciones. Concluyendo este párrafo, hagamos cierto re- 
sumen de las investigaciones realizadas en los seis últimos párrafos. Su fina- 
lidad principal consistía en buscar los métodos de construir las 
estimaciones óptimas (en uno u otro sentido) y fijar las fronteras inferiores 
para sus desviaciones estándar. Como resultado se pueden indicar las si- 
guientes cuatro tendencias principales de búsqueda de las mejores estima- 
ciones. 

1. Construcción de las estimaciones bayesianas (si hay una información 
a priori sobre 0) y minimax. 

2. Determinación de las estadísticas suficientes completas (o mínimas) 
S. Entonces la estimación 0 = My(0*/S) será eficiente en la clase K,, a 
la cual pertenece 0”. 

3. Utilización de las e.v.m. en los casos en que se cumple el criterio 
(3) del teorema 1 (o el criterio (15) del teorema 1A). En este caso también 
obtendremos las estimaciones eficientes (e incluso R-eficientes) en las clases 
con un desplazamiento registrado. 

4. Enfoque cuantitativo basado en la comparación de la desviación 
estándar Me(0* — 0)? de la estimación 0*, que queremos utilizarla, con la 
frontera inferior R definida por la desigualdad de Rao — Cramer. Si la 
relación Ma(6* — 0)*/R es próxima a cero, la estimación 0” puede ser reco- 
mendada para el uso. Siguiendo esta tendencia, obtendremos ulteriormente 
resultados muy generales relacionados con la construcción de las estimacio- 
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nes asintóticamente eficientes, asintóticamente bayesianas y asintóticamen- 
te minimax. 

Hagamos también la siguiente observación. En todas las tendencias se- 
ñaladas más arriba, desempeña un papel muy importante la forma en que 
la distribución de la muestra Pp, depende del parámetro € que se estima. 
Sin embargo, en la práctica a menudo surgen problemas de no estimación 
del propio 6 sino de cierta función (0) de éste. Además es facil notar (véase 
el ejemplo con el esquema de Bernoulli en (8.4) y (8.5)) que la estimación 
p" = p(0*) no siempre, ni mucho menos, poseerá las propiedades que po- 
seía la estimación 6” (no estar desplazada, ser eficaz, etc., sólo se conserva- 
rán las propiedades de eficacia asintótica si y es una función suave). Desde 
este punto de vista es natural que al principio se examine el problema de 
estimación de las funciones y(0) del parámetro inicial 6. Pero hemos renun- 
ciado a tal enfoque, ya que, manteniendo esta tendencia, muchos resultados 
básicos, obtenidos por nosotros, se complicarían considerablemente. Por 
otro lado, si y realiza una aplicación biunívoca, el problema de estimación 
de p(0) se reducirá al problema examinado por nosotros mediante la «repa- 
rametrización», o sea, la introducción de un nuevo parámetro y = (0), 
al que le corresponderá la familia de distribuciones G, = P, — 1). 


$ 17”. Propiedades de la información de Fisher 


Ya hemos visto, y nos convenceremos en adelante, que la información de 
Fisher desempeña un papel muy importante en la estadística matemática. 
Por eso aclaremos algunas propiedades útiles de la misma. 

1. Caso unidimensional. La información de Fisher, 


2 
16) = | LEA ax) = Moll (%1, 09%, 


apareció en las investigaciones del párrafo precedente. La magnitud 


(0) = MolL '(X, 09)]* 


suele considerarse como la medida de la cantidad de información contenida 
en la muestra X respecto al parámetro 6. En el teorema 16.1 hemos demos- 
trado la aditividad de la información: F"(0) = nI(0), o sea, que 7"(0) es igual 
a la suma de informaciones J(0) = Mol! (x1, 0)]? = 1(9) contenidas en las 
observaciones independientes xX,, ..., X,. 

Demostremos una propiedad más de la información de Fisher. Sea 
S = S(X) cierta estadística con valores en R', y sea ge(s) la densidad de 
su distribución inducida por la distribución P+ en (2”*, B,*) respecto a 
cierta medida k en (R', B'). De acuerdo con las designaciones anteriores, 


12—8030 
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llamaremos la magnitud 
I5(9) = Mol(log ge(S))'1* 


información contenida en la estadística S respecto al parámetro 0. 

Notemos que el valor de /*(0) no depende de la elección de la medida 
A. En efecto, si Á es cualquier otra medida y » =A + Á Entonces A y A 
serán absolutamente continuas respecto a », y la densidad gs(s) de la distri- 
bución de S respecto a la medida » será igual a 


egos) = gsls) A = MR, 


donde £e es la densidad respecto a Á Como E e no dependen de 


69, las derivadas de los logaritmos de todas las tres expresiones coincidirán. 


Teorema 1. Supongamos que las densidades fo(x) y go(s) satisfacen las 
condiciones (R). Entonces 


F(0) < F(0). (1) 


Aquí la igualdad se alcanza si y sólo si S es una estadística suficiente. 


Demostración. Para cualquier B€ B' designemos por S”*(B) € Biel 
conjunto x€ 2” para el cual S(x) € B. Entonces según la definición de la 
e.m.., 


| L'G 0)Po(dx) = MolL*(X, 0); XES”'(B)] = 
S” '(B) 
= MolMo(Z *(X, 0/8); S € B). (2) 


Por otro lado, 


[ LG OP) = | Sos =D y feo x 
Ss” 8) S” B) 


Xx Mds) = la ag" Se(siMds) = Molílog ge(S)”; SEBI. (3) 


Comparando (2) y (3), vemos que c.d. (Po) 
Mo(L"(X, 0)/S) = (log go(S))'. (4) 
Luego tenemos 
0 < MolL "(X, 0) - (log ga(5))J* = 
= (0) + 1540) - 2MoL'(X, O (log go(S)'", 


donde, en virtud de (4), 
MeL “(X, O(log 20(S)” = 
= Mol(log go(S)'Mo(L “(X, 0/5] = Mal(log go(S) "1? = 7%(0). 


Esto demuestra la desigualdad (1). 
Sea ahora S una estadística suficiente para 6. Entonces 


SU) = YS, DAA). (5) 
Tomemos en calidad de A la medida 
MB)= | hdd. 
SUB) 
Entonces, como se muestra en el lema 15.1, la distribución de S será absolu- 


tamente continua respecto a A y tendrá una densidad ge(s) igual a 
go(s) = ys, 6). De aquí, en virtud de (5), obtenemos 


F (0) = MIL (% 0]? = Mol(log Y(S, 0) "1? = Y*(6). 


Mostremos ahora que de todas las igualdades Y*(0) = Y*(0) para todos 
6 se deduce que $ es estadística suficiente. Efectivamente, Y*(0) es la disper- 
sión de L'“(X, 6), así que 


P(0) = Mo[L*(X, 0) - Mo(L(X, 0/5)? + Mo[Mo(Z(% 0/5”. (6) 
Pero, en virtud de (4), el último sumando es igual a 
Mol(log ge(S) Y? = P(06). 
Como F*(0) = 1%(0), entonces en (6) c.d. [Po] para todos 6, 
L(X, 0) - Mo(L "(X, 0/8) = 0. 


Por lo tanto, L'(X, 8) es medible respecto a u(S) y, por consiguiente, existe 
una función medible y(S, O) tal que 
LUX, O) s elS, 6), L(X, 0) = HS, 9) + AAD, 

f(X) = expl(S, 0) + HAD]. a 
Ya hemos señalado que las estadísticas suficientes son el tipo único de esta- 
dísticas que reducen los datos muestrales sin perder la información acerca 
del parámetro 6. Bl teorema 1 confiere a esta afirmación el sentido exacto 
con arreglo a la información de Fisher. 

Ejemplo 1. Sea X GB,. Aquí 


JAx) = p"d — py”, 


donde x es igual a 0 Ó a 1, y f(x) es la densidad respecto a la medida 
12* 
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de cálculo. Por eso 


Nx, p) = xInp + (1 — x)in(l — p), 
l-x 
l-p? 


y 1 2 1 o 1 
19) = Myll'Ga, PY =p (5) +0 +5) == 


Ahora bien, la información de una observación en el esquema de Ber- 
noulli es igual a (p(1 — p)”*' y alcanza su valor mínimo cuando p = 1/2. 
La información de toda la muestra constituye »/(p(1 — p)). Designe- 
mos ahora por y el número de «casos favorables» en la muestra X' (número 
de casos unitarios) y hallemos la información de esta observación. Las den- 
sidades (otra vez respecto a la medida de cálculo) para y serán iguales a 


8p(x) > Cap QU - py", Xs O, --. A, 
así que log gp(x) = xlog p + (nr — x)log(l — p) + log Cf, 
T(p) = Mplllog gp(v) "Y? = 


= Sarral - py (E- = 2) a - Yapa = py * 


x=u0 r=0 
(x — npy Ae ] n 


Dy = —__—_—_——_, 
CA-PF "=p pA-p) 


Esta igualdad concuerda por completo con el teorema 1. 

Le proponemos al lector que halle, en forma de ejercicios, las informa- 
ciones de observaciones para las muestras de las distribuciones que depen- 
den del parámetro unidimensional y que han sido dadas en el $ 2. 

2. Caso multidimensional. Sea ahora 6 € R*, k > 1. En este caso se trata 
de la matriz de información de Fisher de la observación x,: 


10) = U(0), 1410) = Mo a ls, De Kxs, 0), 


Xx 
p* =S — — 
(x% p) E 


donde se supone, claro está, que la función f+(x) es derivable. 
Si ponemos 


p(x, 9) 7 (ea %, ..., pr de 


Y q a) 


entonces la matriz 7(0) también puede ser escrita en la forma 
1(0) = | es Oe Ou(dx). 
ES 
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Ya hemos establecido, en el $ 16, que al igual que en el caso unidimen- 
sional, la información de Fisher es aditiva, o sea, la matriz de información 
de Fisher de la muestra X' es igual a la suma de las matrices de información 
de distintas observaciones. Si designamos 


da E d 9 
P'(0) = MÍO), FXO) = Mo 3 LIX, 0) zz LOL 0), 


entonces F(0) a n1(0). 

El teorema 1 también es completamente válido. Sea ga(s) la densidad 
de cierta estadística S = S(X) con valores en R' respecto a cierta medida 
A. Designemos 


s d 6) 
I5(0) = UN, 15(0) = M 30, 1988N5) ¿5 108 ge(S). 


Hemos obtenido la matriz de información de la observación S. 


Teorema 1A. Si las densidades felx) y go(s) satisfacen las condiciones 
(R) del 8 16, entonces 


F(0) < F(0), O) 


o sea, la matriz F(0) — T'(0) es definida no negativamente. La igualdad 
en (?) tiene lugar si y sólo si S es una estadística suficiente. 


La demostración de este teorema es completamente análoga a la del 
teorema 1 y, para abreviar, la omitimos. La misma se puede hallar, por 
ejemplo, en [95] y [48]. 

Ejemplo 2. En el $ 16 ya hemos calculado la matriz de información 
para una distribución normal. Calculémosla ahora para una familia bipara- 
métrica de distribuciones 


_1 x-a 
suo = (22), 
donde 0 = («, 0), f es una función derivable dada, para la cual existen las 


integrales 
ps [a LE de =< Moni) 1=0, 1, 2. 


Aquí (x) = log f(x); la tilde * significa la derivación ordinaria, y a y o 
son los parámetros de desplazamiento y escala de una distribución de densi- 
dad f(x). Ahora bien, conocemos el tipo de la distribución, pero sólo con 
una exactitud de hasta la transformación lineal del argumento. Los paráme- 
tros a: y a de la distribución normal +$,, .+ son, evidentemente, los paráme- 
tros de desplazamiento y escala. Al ser registrado », el parámetro A de la 
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distribución T' es un parámetro de escala, al igual que el parámetro 9 en 
la distribución Uo, +. 
Tenemos 


ox 0) = log f(x) = — loa + (E, 


g 


De aquí hallamos a 2) z 
mor] SE 


H1(0) = —+ Mol * (22) [1 + == pr (255) | = + h, 


2 
ha(0) = > mo | 4 y (25) | = + [2 - 1), 


puesto que e fe ES = -2 (ona = —2. Por lo 


tanto, 


Me ls 


Si f es una función simétrica, es evidente que J, = 0. 
La degeneración de la matriz 7/(0) significa que su determinante se redu- 
ce a cero o, que es lo mismo, 


[Moni (DA + x10 GI = Mio. nl Go) Mon + al (1D)?. 


Esto es posible únicamente en el caso cuando 1 + x7'(x) = cl'(x) para 

cualquier c, O cuando /'(x) = O. De la primera igualdad se deduce que 
e" 

x—ca' 


1 Lo y | 


Ilo) = — In(x — 0) + €, (0) = 


Está claro que tal función f(x) no puede ser la densidad de la distribu- 
ción. Análogamente se examina la posibilidad de que /'(x) = 0. Por lo tan- 
to, 1(0) está definida positivamente. 
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En particular, para la familia normal (9. ..), cuando 0 = (a, 0), 


110 
10 == lo >| 


puesto que en este caso Mx) = —-x2/2- InV2r, l'(0)=-x f= 
= Mo, vyx? =1,Í = Mo, 1xi =0,h = Mo, yxí = 3. Podríamos haber ob- 
tenido este mismo resultado con ayuda del ejemplo 16.4, si hubiéramos uti- 
lizado los datos del apartado 3 donde hemos mostrado el comportamiento 
de la matriz de información al sustituir el parámetro (en el ejemplo 16.4 
9 = (a, 0”), pero no (a, a). Le proponemos al lector que se cerciore de 
que, en concordancia con el teorema lA, la estadística (x, Dx?) tiene la 
matriz de información 


50) = + | : , | = ni0). 


3. Matriz de Fisher y sustitución del parámetro. Examinemos la cuestión 
de cómo se comporta la matriz de información al sustituir el parámetro. 
Pongamos 0 = (8), BER*, donde u es una función vectorial derivable, 
y examinemos la familia paramétrica Pf? = P,¿s,. Con el fin de hallar la 
matriz de información J(f) para esta familia, debemos hallar las derivadas 


k 
9 = d 9vi(8) 
8 xr, v(8)) 2 30, Gu, v(8)) 96; . (8) 
Si designamos V = Ss »bj=1,..., k, obtenemos que el vector de 


las derivables en (8) /$(x,, v(8)) es representable en la forma l/¿(x,, v(BYY, 
así que 


J(8) = Malló(x1, UB) lil, v(BNV) = V"I(v(B)V. 
En particular, si 0 = $C, C = kyl Lj =1,..., k, entonces Y = C” y 


J(B) = CHO)C”. (9) 
Obsérvese que si examinamos, en el espacio paramétrico, el elipsoide 
(9 — O(ONO - 0) <c, (10) 


la escritura (10) de este conjunto es invariante con respecto a la transforma- 
ción invertible lineal C sobre el parámetro 0. Así pues, si ponemos 0 = £C, 
el conjunto (10) en nuevas variables tendrá la forma 


(8 — BNJWBNB - BY <c, 


donde $, = 6,C 7 !. Esto se obtiene inmediatamente si se sustituye 9 = BC 
en (10) y si utilizamos (9). 
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$ 18”. Estimaciones del parámetro de desplazamiento 
y escala. Estimaciones equivariantes eficientes 


En los 85 12—16 hemos visto y nos convenceremos posteriormente hasta 
qué punto es útil el concepto de estadística suficiente en general y al cons- 
truis las estimaciones eficientes en particular. El círculo de ideas relaciona- 
das con la utilización de las estadísticas suficientes podría llamarse 
principio de suficiencia. Al construir las estimaciones eficientes hemos 
combinado el principio de suficiencia con otro principio llamado principio 
de no desplazamiento. Este último consiste en separar las clases de estima- 
ciones con desplazamento registrado y, en particular, con desplazamiento 
nulo. Sin registrar el desplazamiento sería imposible separar las estimacio- 
nes eficientes. 

En este párrafo, así como en el párrafo siguiente y en el capítulo 3, 
examinaremos el tercer principio importante de la estadística matemática, 
o sea, el principio de invariación. 

La introducción de todos los principios mencionados tiene el mismo 
sentido: ellos permiten, de un modo natural, reducir la clase de las estima- 
ciones sujetas a estudio, de manera que en las reducciones obtenidas resulte 
posible la determinación de las estimaciones eficientes. 

1. Estimaciones del parámetro de desplazamiento y escala. Se llama pro- 
blema de estimación del parámetro de desplazamiento el problema de esti- 
mación del parámetro «a en la familia de distribuciones (P.]j que poseen 
la propiedad 


P.(A) = PA — a). 


Aquí P es cierta distribución registrada; A — a = Íx:x+aeAa) y se 
supone que cl conjunto paramétrico O tiene la misma naturaleza que 2 
En el caso en que 2"= R” se puede, por supuesto, examinar también los 
desplazamientos de 9 de ““menor dimensión”, por ejemplo, escalares, pero 
entonces es necesario registrar la dirección (vector e € 2) de desplazamiento 
y estudiar P¿(4) = P(4 + ae). Para abreviar, examinaremos tan sólo la pri- 
mera posibilidad y consideraremos que O = Z'= R”. 

Señalemos que la distribución P, de x; + c(c € R”) coincide con la dis- 
tribución P..,. de la magnitud x,, o sea, el desplazamiento de todas las 
observaciones en c conduce a la muestra de la distribución Pa +... Por eso 
es natural que se investiguen únicamente las estimaciones a” = a” (X) del 
parámetro a que poseen la propiedad 


a(X + <) =. a (X) + c. (1) 


De aquí en adelante X + c significará el vector con coordenadas (x: + a 
.., Xan + €). La violación de esta igualdad significaría que la estimación 
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a” depende del origen, o sea, de la elección del origen de coordenadas en 
el espacio 2"= R”. 

El enfoque análogo aparece al estimar el parámetro de escala cuando 
se aprecia el parámetro y en la familia (P,) que tiene la propiedad 
PX(A) = (4/0), 94€ (0, co). Aquí suponemos que d es escalar, aunque se 
puede examinar también un caso matricial. En este caso la distribución 
P, de los valores x;c coincide con la distribución Po: de las magnitudes 
x¡, O sea, la multiplicación de las observaciones por c conduce a la muestra 
de P,,. Por consiguiente, en este caso es natural limitarse al examen de 
las estimaciones que poseen la propiedad 


AXE) = co O, 2) 


donde Xc = (x1C, ..., XnC), puesto que al variar c veces la escala de obser- 
vaciones esa misma cantidad de veces también varía el parámetro. 

El lector, por su propía iniciativa, puede obtener fácilmente las afirma- 
ciones siguientes, 

Si la familia Po satisface la condición (A,.), entonces 0 será de parámetro 
de desplazamiento (de escala) si y sdlo si 


fx) = fx — 0), (Yaco =1 (5) | 


SiZfaR =0,X€ Pa y a es el parámetro de desplazamiento, entonces 
Y =e* =(e*, ..., e*”)€ Q., donde, para las distribuciones Q., o = e” 
es el parámetro de escala. Esto se deduce directamente del hecho de que 
la densidad y, = e* es igual a (véase [11], p. 


1 MN IO A y 
y Kin a) - [5:(m2)]. 


Al contrario, si 2"= (0, 00) = O, XE P, y d es el parámetro de escala, 
entonces Y = In X = (Inx,,...,Inx»,)€ Qa, donde a = In y es el paráme- 
tro de desplazamiento de las distribuciones Q.. 

Se puede examinar también el problema de estimación simultánea de 
los parámetros desconocidos a y «o en el caso en que P. (A) = 
=P 42) . En estas condiciones es natural que en calidad de estima- 
ción de y $e examinen las funciones que poseen la propiedad 


a(X + 0) = “UN, a(Xc) = co UN. (3) 
Las estimaciones que en los ejemplos examinados satisfacen las condi- 


ciones (1), (2) y (3) se llaman equivariantes (véase la definición general en 
el 8 19). La causa de introducción de tales estimaciones consiste en la con- 
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tracción de todas las estimaciones sometidas a estudio, lo cual simplifica 
el problema de búsqueda de las estimaciones óptimas. Así en el $ 8 hemos 
establecido que es imposible hallar uniformemente (o sea, para todos los 
0) las mejores estimaciones en la clase de todas las estimaciones. Resulta 
que en la clase de estimaciones equivariantes tales estimaciones uniforme- 
mente mejores ya existen y en varios casos pueden ser halladas en forma 
explícita. Vamos a ilustrar este hecho citando, a título de ejemplo, las esti- 
maciones de desplazamiento y escala. 

2. Estimación eficiente del parámetro de desplazamiento en la clase de 
estimaciones equivariantes. Aquí consideraremos que se cumple la condi- 
ción (A,) y, por lo tanto, f(x) = f(x — a) y que u es la medida de Lebesgue. 

Designemos por Sy la estadística 


So = AA) = (X2 — Xi, --., Xn — X1) 


que es, evidentemente, invariante respecto al desplazamiento: 
S(X + c) = S:(X). Designemos por Kg la clase de todas las estimaciones 
equivariantes a”, o sea, las estimaciones que satisfacen (1), y designemos 
por la? el cuadrado de la norma euclídea a € R”. 


Teorema 1. Sea a” = a" (X) cualquier estimación equivariante con valor 
finito Mya". Entonces, la estimación 


as = a” — Mola" /So) (4) 


no depende de la elección de a” y es la única estimación eficiente en la 
clase Kg, o sea, Maloó — al? = mía Maja” — a)? para todos los a y 


Maja” — aj? = Maja — al? si sólo Mol" /So) = 0 c.d. La estimación ao 
puede ser representada en la forma 

[uf (X)du jurx — u)ldu (5) 

a TZ A ooo . 
VO du AX - uydu 
La estimación aa se denomina estimación de Pitrran. De (4) es fácil 

deducir que ésta es equivariante y no está desplazada. La equivariación 
se deduce de la equivariación de a” y de la invariación respecto al desplaza- 
miento de la función V(So) = Mo(a*/So) que depende tan sólo de Sy. El 
no desplazamiento se deduce de las igualdades 


M.xo sq e+ Ma" (X q a) E Ma V(So), (6) 


donde M. V(So) = MoV (So), Maa (X — a) = Moa" (A). La última relación 
se deduce del hecho de que X - « € Po si X € Pa. Por eso la suma de 
los dos últimos sumandos en (6) constituye 


Moa” — MolMola* /So)] = 0; Mao = a. 


18. ESTIMACIÓN DBL PARÁMETRO DE DESPLAZAMIENTO 187 


Antes de demostrar el teorema expondremos la siguiente afirmación au- 
xiliar. 

Lema 1. Sea X € Po. Para cualquier estadística S = S(X) con esperanza 
matemática finita Mo|S| < vo, la em.c. de S respecto a Sp es igual a 


[SX — JO du 


Mo(S/So) = SI(A) m 
(20 du 


(2) 


Demostración. Todas las funciones bajo los signos integrales en (7) son 
las funciones de X — u. Por consiguiente, después de sustituir X, — u = v, 
las mismas serán las funciones de (v, x2 — X1 + u, ..., Xa — X1 + y). Esto 
quiere decir que el segundo miembro de (7) depende únicamente de So. 
En virtud de las propiedades de la e.m.c., para demostrar el lema es suficien- 
te convencerse que para cualquier A € o(Sp) 


Mo(S:; A) = MolS; A). (8) 
Sea Z = Z(Sp) cualquier estadística c(Sp)-medible limitada. Entonces 


Z(So) | Síx — uYkx)du 
MoZS, = ] 


Ml Z(S9)S(x — UY (Xx — UNA) 
| J A ad dx du. 


Después de sustituir x — u—x, en el intervalo interior obtenemos (en este 
caso So(x) se transforma en sí mismo) 


Z(SISAYVUY (e + u) a Ñ 
| ) Efe a do dx du = | zoster = MoZS. 


Esto demuestra (8). El cambio del orden de integración, al cual hemos 
acudido dos veces, es justo en virtud de la integrabilidad absoluta de S 
y del carácter limitado de Z. «< 

Demostración del teorema 1. Antes que nada es preciso señalar que para 
la estimación equivariante, Maja” — aj? no depende de a. En efecto, 


Mala (X) — af? = Mala (X — a)? a Mola (A)/?. 


Ahora bien, para determinar la estimación equivariante uniformemente 
óptima es necesario hallar a*, que minimiza Moja:'|?. 
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Sea a* cualquier estimación equivariante a. En virtud de las propieda- 
des de la e.m.c., 


Moja*|? = Mojo” — Mola*/So)? + MojMola* /So)l? > 
> Mola" — Mola” /So)l*. (9) 


Queda señalar que, en virtud del lema 1, la estimación 
a = a” - Mola" /So) es igual a (5) y no depende de la elección de a”. La 
igualdad en (9) es, evidentemente, posible si y sólo si Mola” /So) = O c.d. a 

De la demostración del] teorema se deduce que, en la construcción de 
la estimación óptima equivariante, desempeña un papel especial la estadísti- 
ca So = (X2 — X1, ..., Xan — X1), que es invariante respecto a la transforma- 
ción del desplazamiento. La invariación de la estadística es, en cierto 
sentido, una cualidad contraria a la suficiencia, y la construcción de la 
estimación 0% = 0” — Mo(0*/So) a base de la estimación arbitraria 0”, es 
el enfoque del mejoramiento de la estimación 0”, también, en cierto sentido, 
contrario al enfoque con el cual, para el mejoramiento de la estimación 
0” mediante la estadística suficiente S, se examina la estimación 
0; = Ma(9”/S). La contrariedad consiste en lo siguiente. La característica 
suficiente contiene toda la información sobre el parámetro 6, mientras que 
la estadística invariante no contiene ninguna. Con el fin de obtener las me- 
jores estimaciones, hemos buscado las estadísticas suficientes mínimas; 
aquí, como veremos, necesitamos las estadísticas invariantes máximas (tal 
es la estadística So). La estimación 0; es la «proyección» de 09” sobre $, 
mientras que la estimación 0% se obtiene sustrayendo de 0” su «proyección» 
sobre So. 

En resumidas cuentas, los resultados obtenidos por estas dos vías coinci- 
den a menudo, como se verá de los dos ejemplos siguientes. 

Ejemplo 1. Sea Z'= R, X € €, 1. Entonces 


Sal X) = E cxp[ - > Y = a) = 


1 1 - 7 (ax 
- — E om(- 7 200 -9]- he 1 , 


vam * 


Aquí el segundo factor, como función de a, es la función de densidad 
de la ley normal con parámetros (X, 1/2). Como el primer factor no depen- 
de de a, es reducido en (5), y la estimación de Pitman constituirá a” = x. 
En el caso multidimensional obtendremos este mismo resultado. 

Ejemplo 2. Sea 2= R, X € Us, 1/0. Entonces 


_f 1 cuando Xq) — 1 £0 € Xa)» 
FA) Lo en los demás casos. 


3 18. ESTIMACIÓN DEL PARÁMETRO DE DESPLAZAMIENTO 189 


) 
0” = | uduftro, — Xq + 1) => Gu) + Xm — 1). 
Xi) - 1 


Ahora bien, vemos que en la clase Kz de estimaciones equivariantes 
se pueden construir, en forma explícita, las estimaciones eficientes, además, 
en este caso no se necesitan ningunas condiciones de suavidad de fe(x), 
y la propia eficacia tiene un carácter exacto (no asintótico). 

3. Carácter minimax de la estimación de Pltman. Ahora prestemos aten- 
ción a la forma de estimación de Pitman. Hablando en términos generales, 
ésta es una estimación bayesiana para la distribución a priori «uniforme 
en todo el eje». Como tal distribución no existe, enunciemos más exacta- 
mente la referida afirmación. Sea 2 = R y Q%” una distribución uniforme 
en [-N, N], o sea, una distribución cuya densidad constituye 


-1 
SA 


La estimación bayesiana correspondiente a QU será igual a 


ju my Oda 
am = As ¡ ud | 00d 
[am eod y 3 


Es evidente que para todos X, la estimación de Pitman «gs es el límite 
a = pim a:Q(N). Esta circunstancia sugiere que a la vez convergerán 


también los momentos de segundo orden: 
Malago — a) +Malas — a)?. 


Resulta que en la región |a| < N — YN, eso es precisamente así. Ade- 
más, la convergencia será uniforme respecto a «a en el referido intervalo 
de valores de a. (La demostración está relacionada con la estimación de 
Malaó — age), tiene principalmente carácter técnico y por eso la 
omitimos). 

Pero en este caso podemos utilizar el criterio del carácter minimax de 
las estimaciones en el teorema 11.3; si la estimación a* es tal que, para 
todos los valores de a, 


Mala” — a)? < lím sup [Mula gw — 0d) (10) 
Nooo 


para cierta sucesión de distribuciones a priori QW" (no obligatoriamente 
uniformes) y de estimaciones bayesianas correspondientes Ag» entonces 
a" es una estimación minimax. 
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En nuestro caso, m = Mula — ay? no depende de a. Por eso, en virtud 
de las propiedades de convergencia anteriormente mencionadas, 


lím sup ¡Mia pro - QU di > 


N= 
Ñ 1 e 2 
1 <N—-vVN 
¿ 1 
> lím sup => UN -— VÑNm-— €) =m-eé 
N—-eo 2N 


para cualquier e > O. Esto significa que se ha cumplido la propiedad (10). 

Así pues, la estimación de Pitman es minimax en la clase de todas las 
estimaciones del parámetro de desplazamiento (el hecho de que ella sea mi- 
nimax en la clase de estimaciones equivariantes, se desprende, evidentemen- 
te, de la eficacia). 

Lo dicho también se puede interpretar del modo siguiente: la «peor» 
distribución a priori (véase el $ 11) para el parámetro de desplazamiento 
es la distribución «uniforme en todo el eje». 

Como indicación del carácter minimax de la estimación de Pitman tam- 
bién podría servir la dependencia (señalada más arriba) Malas — a)? de 
a: (compárese con el teorema 11.2). 

4. Acerca de las estimaciones óptimas del parámetro de escala. Como 
ya hemos indicado, el problema de estimación del parámetro de escala « 
puede reducirse, en cierto sentido, al problema de estimación del parámetro 
de desplazamiento. Sea, por abreviar, 2"= (0, 00) = O. En este caso, si 
XE Po, PA(4) = P(4/0), entonces Y =InX = (Inx,, ..., Inx-)JE PY 
donde a = Ino, y la distribución PO” tiene una densidad y, = In x, en el 


punto y (1a condición (A,,) se cumple, AE a 100) , igual a (véase 
(11), pág. 53) 


NE) = 107987" =1% - a) 


SY) = 1%. 


Ahora bien, podemos apreciar muy bien el parámetro a: con ayuda de 
la estimación de Pitman a” = a*(Y), y luego suponer que 0*(X) = ex(N, 
Es fácil notar que o*(X) será equivariante, ya que 


o (cX) = en (Y+Inc) = ga(Y)+nc = co” (A). 


No obstante, aquí es importante señalar que la estimación de Pitman mini- 
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miza Ma(a* — a)?. Por lo tanto, la estimación a” obtenida minimizará 


Me(in a” ) (11) 
o 


y no la magnitud My(o” — 0)? de la cual se trataba generalmente. Pero en 
el problema de estimación equivariante del parámetro y no era racional 
examinar la estimación estándar, puesto que ella, a distinción de (11), de- 
pende de la transformación de contracción aplicada simultáneamente a o” 
y o. Aquí, como análogo de la estadística invariante So servirá la estadística 
(x2/X1, ..., Xn/X1). A la par con (11) también es posible, naturalmente, 
examinar otros errores. Si, por ejemplo, minimizamos la magnitud 


m (E _ 1). 


entonces, la mejor estimación equivariante será 


-”-?2 
os lor HKX/0d0 (12) 
y HX/0da 
(véase [33], p. ). 

Ejemplo 3. Detección de la fuente de radiación. Examinemos un ejem- 
plo de un problema físico real, relacionado con las estimaciones de despla- 
zamiento y escala. 

Supongamos que en cierto punto desconocido 2 del espacio tridimensio- 
nal se encuentra una fuente de radiación gamma. El problema consiste en 
determinar las coordenadas del punto z utilizando un detector plano (que 
coincide con uno de los planos de coordenada) y, fijando en este detector 
las trazas de radiación, o sea, las trazas de interacción de los cuantos gam- 
ma, emitidos por el punto z, con la superficie sensible del detector. 

Este problema sería mucho más simple si tuviéramos una fuente de ra- 
diación de partículas cargadas de alta energía. Entonces podríamos poner, 
uno tras otro, dos detectores planos paralelos y fijar en ellos los puntos 
de paso (o sea, de interacción con la superficie de la pantalla) tan sólo 
de dos partículas. Esto nos daría las direcciones del vuelo de esas partículas 
y junto con ellas las coordenadas del punto 2 como punto de intersección 
de dichas direcciones. Sin embargo, para una radiación gamma poco inten- 
sa, que se utiliza en roentgenoscopia, esto es irrealizable y tan sólo se puede 
introducir un detector. 

La dirección de propagación de los cuantos gamma emitidos es aleatoria 
y se distribuye uniformemente en la superficie de la esfera (si dicha direc- 
ción se determina por un punto en. la esfera con centro en el punto 2). 

Para simplificar el problema examinemos su variante bidimensional. Su- 
pongamos que la fuente se encuentra en el plano de las variables (x, y), 
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en un punto desconocido z = (a, 0), a > 0. El ángulo de dirección de la 
radiación, formado con el eje Oy, tiene una distribución uniforme en (0, 
271). El detector sensible coincide con el eje de abscisas. Los resultados de 
las observaciones serán los puntos X:, X2, -.., en los que hemos fijado 
la interacción de los cuantos gamma con el detector (con el eje de abscisas). 

La peculiaridad de este problema consiste en que el volumen » de la 
muestra obtenida durante un tiempo fijo f, será aleatorio: el número de 
cuantos gamma emitidos por la fuente en el tiempo / tiene una distribución 
de Poisson, y el número de cuantos gamma que alcanzaron el detector tam- 
bién está distribuido con arreglo a la ley de Poisson, ya que cada cuanto 
llega al eje de abscisas con una probabilidad igual a 1/2, No obstante, en 
nuestro caso, n y las observaciones Xx, X2, ... son independientes. Por eso 
podemos examinar el número n de observaciones que se ha obtenido y con- 
siderarlo fijo (para cada uno de tales números n fijos, la distribución de 
xy será la misma). 

Así pues, supongamos que se han dado las observaciones X = (x1, ..., 
Xa). Nuestro problema consiste en estimar las coordenadas (a, 0). Mostre- 
mos que X € K4a.s, O Sea, xy tienen una distribución de Cauchy con paráme- 
tros de desplazamiento « y de escala gJ, 

En efecto, la distribución condicional del ángulo f£. entre la dirección 
del movimiento del cuanto gamma y el eje (0, —y), a condición de que 


y 7 = (a, a) 


Fig. 2. 


el cuanto haya alcanzado el detector (el eje de abscisas), será uniforme en 
el segmento [ — 1/2, 1/2]. Como (x — a)/a = tg fl (véase la fig. 2), entonces 


l 


a 
ps . 


Pool(xi <x) E + — arctg EZ 


Por consiguiente, la densidad de distribución de x, será igual a la densidad 
de distribución de Cauchy (véase el 5 2) 


e Y 1 ma g 
Ka.«(x) xo (1 + ((x — a)/ 0)) ra + (x — a)*) j 
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Ahora supongamos que d es conocido, por ejemplo, v = 1. Entonces 
la mejor estimación invariante del parámetro de desplazamiento « será la 
de Pitman, que se obtiene como el valor medio de a* = fuptu)du de la 
distribución con una densidad de 


Ko z 
p(u) = pu, X) = A » Ku(X) = I1 Ku(x0), 


0d 0 


La ev.m a” será un punto en el que se alcanza el máx gp(u4). Más adelante 
mostraremos (véanse los 55 24 y 25) que a” y a” son asintóticamente equiva- 
lentes y tienen una distribución asintóticamente normal con coeficiente 


1/T =2 (en el caso sujeto a examen ]= [(0Y/kodx = sra + 


+ x*)” "dx = 1/2). De lo dicho resulta que el error de las estimaciones «a* 
y a” para grandes n tiene un orden de pequeñez igual a 1/n. 

Es interesante señalar que en el problema sometido a examen se puede 
alcanzar un grado más alto de exactitud, interviniendo en el experimento. 
Esto se puede hacer colocando entre el punto z = (a, 1) y el detector una 
pantalla paralela al eje de abscisas y provista del orificio H, a través del 
cual sólo pueden pasar los cuantos gamma. Las posiciones de la pantalla 
y el orificio se eligen según el experimentador y, por lo tanto, son co- 
nocidas. 

En este caso la distribución de las observaciones en la pantalla será 
discontinua y, si los orificios Y son pequeños, será próxima a Usa co +» 
para ciertas constantes a y b que conocemos. La forma de la estimación 
equivariante eficiente ay para tal distribución fue hallado en el ejemplo 
2. La estimación ay se determina por los valores extremos de la muestra 
y tiene una exactitud del orden de 1/1, donde rn < n es el número de 
elementos de la muestra, los cuales corresponden a los cuantos que han 
pasado a través de la ranura (np, al igual que », es realmente aleatorio 
y está distribuido de acuerdo con la ley de Poisson). Como, por término 
medio, 11.1 es proporcional a n, con valores de n bastante grandes obtenemos 
1/ny < 1/vVn. 


$ 19”. Problema general sobre la estimación equivariante 


Examinemos el grupo G de transformaciones medibles g del espacio 2” 
en sí, que poseen las propiedades siguientes: 

1) cada £ aplica 2” en todo el espacio 2”, o sea, para cada x. € 2” 
se encontrará un x, €” tal que a = gx;. 


13I—8030 
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2) Jas aplicaciones g son biunivocas. 

La mensurabilidad de g se necesita para que g.X sea una variable aleato- 
ria. La propiedad de grupo quiere decir que g22g1 € G si g1 € G, £2 € G; la 
transformación idéntica e y la inversa g”? pertenecen a G (así que 
g 2 =8) 

Definición 1. La familia de distribuciones (P+j se llama equivariante 
respecto al grupo de transformaciones G(o, para abreviar, simplémente in- 
variante) si para cada g € G y 0 € O existe el único 0, € O tal que la relación 
X 6 Pp, conduce a gX € Po,. 

Designemos por $, = gÓ el valor de 6, definible unívocamente por Ó 
y g. Entonces la definición significa que 


PoAeX € 4) = Prol X € A). 


Como en virtud de la definición 1 se cumple la condición (49), el con- 
junto G de todas las transformaciones g del espacio O en sí forma un grupo. 
En efecto, la distribución g22,X se da simultáneamente por las distribucio- 
1 es Pago y Pr.z.w0. De la condición Ao) resulta que g281 = 8281 y que 

1 € G (es suficiente poner g2 = gi *). Las transformaciones £ de G son 
emiomádicamente biunívocas. Sin embargo, puede no haber isomorfismo 
entre G y G. Sea, por ejemplo, X € Lo.., 0 € (0, co). En este caso la den- 
sidad fo. (A) (función de verosimilitud) depende exclusivamente de Yx?. 
Por consiguiente, si en calidad de G examinamos un grupo de revoluciones 
(transformaciones ortogonales de 27”), entonces, las condiciones de la defi- 
nición 1 serán cumplidas, pero £ = €, y el grupo G se compone del único 
elemento €, o sea, de la transformación idéntica de O = (0, 00) en sí. 

Le proponemos al lector que compruebe, en calidad de “ejercicio, que 
si [Ps] es invariante respecto al grupo G, y G; es un subgrupo de G, enton- 
ces ([Pp¿)] es invariante respecto a G,. 

Cuando examinemos el problema general de estimación equivariante ne- 
cesitaremos un planteamiento más general del problema respecto a la com- 
paración de las estimaciones. Hasta ahora lo hemos hecho con ayuda de 
las desviaciones estándar, midiendo el error de la estimación por la magni- 
tud (9* — 0)? Ahora supondremos que la medición del error de 9* ocurre 


con ayuda de la función w(6*, 0) y que esta función posee propiedad de 
“homogeneidad”*): 


w(20, 20*) = w(0, 0*) para todos los valores de 0. (1) 


Precisamente esta propiedad es típica de las funciones w(9, 9*) = (8 — 6*y 
para el parámetro de desplazamiento (transformación de desplazamiento) 


Esta propiedad no es obligatoria en la teoría de estimación equivariante. Sólo se puede 
cxugir la existencia de £0” tal que para todos 0w(F0, ¿0%) = w(9, 9”) (véase [33)). 
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2 2 
y w(0, 0*) = (in 7) ó (5 —- 1) para el parámetro de escala (transfor- 


mación de contracción). 

Hemos visto en el punto 4 del $ 18, que el problema de determinación 
de la mejor estimación invariante puede ser muy sensible al elegir la medida 
del error w(0, 6*) de la estimación 0*. 

Recurramos ahora al problema de estimación de las familias invariantes 
[Po]. Supongamos que tenemos la muestra X y que basándonos en ella 
hemos construido la estimación 9* = 8*(X) del parámetro 6. Si examina- 
mos la muestra Y = gX € Pje, entonces 0* (Y) será la estimación para £0. 
En este caso es natural suponer que las estimaciones 0*(X) y 9*(Y) están 
ligadas entre sí al igual que los parámetros sujetos a estimación 0 y 20, 
o sea, mediante la transformación £: 


0*(Y) = 20*(X). (2) 


En virtud de (1), la estimación 09*(Y) del parámetro £(0) proporciona el 
mismo error que la estimación 9*(X) del parámetro 0. Por lo tanto, tenemos 
dos problemas de estimación “iguales”. Las transformaciones realizadas g X 
y 20 pueden interpretarse como las sustituciones de los sistemas de coorde- 
nadas. Entonces (2) significa que la estimación 9* no depende de la elección 
del sistema de coordenadas y satisface la relación 


0*(X) = 27 '9*(gX). (3) 
Con otras palabras, si se ha elegido 6”, que satisface (2), entonces no impor- 
ta cuál de los dos problemas de estimación mencionados más arriba ha 
de ser resuelto, puesto que, mediante la igualdad (3), las deducciones acerca 
de £0 en el segundo problema pueden convertirse en deducciones acerca 
de 0 en el primer problema. 

Definición 2. La estimación 0* del parámetro 0 de la familia invariante 
Po, que satisface (3) se llama equivariante”. 

Examinemos cualquier punto 0 € O y el conjunto de puntos “equivalen- 
tes” O = 2600, y € G. Tal formación de clases de puntos “equivalentes” divide 
todo el espacio O en subconjuntos llamados órbitas. 

Teorema 1. El valor de Me w(0, 0*) para la estimación equivariante 
9* es constante en la órbita, o sea, 


Mow(0, 0*) = Mzow(E0, 0%) 
para cualesquiera 09€ O y ge G. 


* Tales estimaciones se denominan, a veces, invariantes. Sin embargo, este término es 
menos exacto. Es mejor dejarlo para las estimaciones que poseen la propiedad 0'(gA) = 0 (X) 
(o sea, para el caso cuando $ = Z para todo g). 


J3* 
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Demostración. 


Mow(0, 0*(X)) = Mew(20, 80*(X)) = 
= Msw(20, 0*(2X)) = Mzow(g0, 0*(X)). < 


Si la órbita (0, 0 = £00, g € G) coincide con € (como tuvo lugar para 
los parámetros de desplazamiento y escala), entonces M+w(9, 9) = const 
en O. El cumplimiento de esta igualdad es el síntoma característico del 
carácter minimax de 0% (compárese con el teorema 11.2), así que las mejores 
estimaciones equivariantes a menudo resultan minimax en la clase de todas 
las estimaciones (esto se detalla en (33)). 

De los teoremas del $ 11 se deduce, por ejemplo, el 


Teorema 2. Si O es una dgrbita, y la estimación equivariante 0* resultó 
bayesiana (o el límite de estimaciones bayesianas 0% con una convergencia 
Mo.w(0, 0*) = Mim Mow(0, 9%)), entonces 0* es una estimación minimax. 


Nótese también la siguiente propiedad importante de las estimaciones 
equivariantes. Será cómodo designar por v(g, dx)/v(dx) la densidad de la 
medida vz, vs(B) = v(gB) respecto a la medida » en el punto x€ 2”. 

Teorema 3. Supongamos que se cumple la condición (A,) y 
1" e dx)" (dx) es finito y positivo para cada g € G, y C.t. [u”)] valores de 
x. Supongamos, además, que la ev.m. 0* es la única para cada X. En este 
caso, si la familia Po es invariante, entonces 0* es la estimación equiva- 
riante. 


Demostración. Tenemos 
Pó-00 (dx) _ 5. Polax) 


(A) = —_—— 4 
HD y d 
en el punto x = X. Suponiendo Y = gX, también podemos escribir 
_ Prints dx) _ Po(g dx) 
OD ay PEA 


En virtud de la invariación de Pp y del carácter finito de 
u"(g dx)u"(dx) > 0, esto equivale a que 


Pep (ax) ds P,, (dx) En Pe(dx) ' 
m"(dx) o  p"(dx) o dx) 


Comparando con (4) y utilizando la unicidad de %*(X), obtenemos 


E (Xx) = 61M). < 
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$ 20. Desigualdad integral del tipo Rao—Cramer. 
Criterios del carácter asintóticamente 
bayeslano y minimax de las estimaciones 


Este párrafo también podría titularse “Desigualdad para la desviación es- 
tándar en el caso bayesiano”. En su mayor parte el mismo se refiere a la 
teoría asintótica de la estimación. 

Antes ya hemos tocado las cuestiones relacionadas con el enfoque asin- 
tótico de la comparación de las estimaciones. Ahora, y sobre todo en los 
$$ 23—29, dichas cuestiones serán el principal objeto de estudio. 

1. Estimaciones eficientes y supereficientes. En el $ 16, dedicado a la 
desigualdad de Rao——Cramer, quedó sin aclarar la siguiente cuestión im- 
portante. Supongamos que se cumple la cuestión (R). Entonces, para las 
estimaciones no desplazadas, 

J 


.. 2 
Mo(0* - 0Y > 50 


El segundo miembro de dicha desigualdad se llama, a veces, frontera 
de Rao—Cramer, Esta se alcanza para las estimaciones R-eficientes. La 
cuestión consiste en si ¿será posible o no, a costa de elegir el desplazamien- 
to, mejorar considerablemente las estimaciones R-eficientes O asintótica- 
mente R-eficientes? Es la cuestión acerca del carácter esencial de la frontera 
de Rao——Cramer y acerca del papel que desempeña el desplazamiento. 

Ya hemos examinado parcialmente el hecho de que en un punto registra- 
do 9», el valor de My(9* — 0)? puede hacerse mucho menor que la frontera 
de Rao—Cramer. Para ello es suficiente tomar 6* = 6. No obstante, en 
este caso, tal estimación en otros puntos será muy mala. 

Se puede citar otro ejemplo menos trivial, donde el mejoramiento se 
alcanza nó a expensas de otros puntos. Sea Y E 9, 1, «€ 8 = [0, 00). En- 
tonces la estimación a? = x es eficiente e incluso R-eficiente. Sin embargo, 
en nuestro caso, cuando O = [O, <o), la estimación a** = máx(0, x) será, 
evidentemente, mejor, puesto que ella reduce las desviaciones estándar, sus- 
tituyendo por O los valores negativos inadmisibles. Es evidente que la esti- 
mación «a** ya será mi: M.a** > a, pero en el punto a =0 
tenemos Ja) =1, Molar? =2, Mola*”) = > SE AñO . En este 
ejemplo, el mejoramiento está delecionads con el le de que hemos redu- 
cido el campo de valores de la estimación «* hasta el conjunto 6. Citemos 
un ejemplo más (perteneciente a Hodges), en el que el mejoramiento de 
a* ocurre no a costa de la limitación de 8. 

Sea, como antes, X E $, 1, 4€9 = (—oo, 0). Además de la estima- 
ción eficiente a* = x examinemos, cuando $ < 1, la estimación 

rta xsilx >.n.%, 
Bx si [x] < pov4, 
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No es difícil ver que, cuando « > 0, según el teorema central, del límite, 
Pa(Ix| < 171%) < Pa((x — aj Vn < n!* — avn) > 0 


cuando n — «o, La afirmación análoga es cierta cuando «a < 0. Por eso 
ar*” cuando a x 0 a**, coincide con x en el conjunto de la probabilidad 
que converge hacia 1 y, por lo tanto, según el teorema de continuidad cuan- 
do a 40, 
(a** = a) Vn € do 1. 
Cuando «a = 0, 


Po(|lx| < n7'%) = Po(]xvn] < n'*) => 1 
y a** en el conjunto de la probabilidad convergente hacia 1 coincide con 
Bx, así que (u** — a)jvYn € $o.5:. Por consiguiente, para todos los valores 
de a, la estimación «a** es asintóticamente normal, (a** — «a)vVn € 
é Lo. (a), donde 
Fi la cuando a 0, 
8? 1 cuando a = 0. 


Ahora bien, en el punto a = 0, el coeficiente de dispersión o*(0) resultó 
menor que la frontera inferior de Rao—-Cramer, igual a l. 

Las estimaciones asintóticamente normales en los ejemplos citados, 
cuando el coeficiente de dispersión para ellas (0) < 17 *(6) es, con algunos 
valores de 0, estrictamente menor que /7*(0), se llaman, a veces, superfi- 
cientes. 

No obstante, resultó que estos ejemplos cambian poco el cuadro, justo 
en general, acerca de la preferencia de las estimaciones eficientes. Precisa- 
mente Le Cam demostró que el mejoramiento (ilustrado más arriba) de 
las estimaciones, hablando en general, sólo se puede lograr en pequeñas 
cantidades de puntos. 

En este párrafo mostraremos que a la par com la relación 
NN M.(0* - rt =0, válida para cada f, para la integral respecto a 


M:(0* — () ya existe una frontera inferior positiva que no depende de 9* 
y la cual se halla estrechamente relacionada con la integral análoga de la 


función (n/(£))7*. Así mismo obtendremos, en el caso unidimensional 
0€R, la desigualdad para 


inf [M.(6* - 0 gandt, (1) 


cualquiera que sea la función ponderal g(f) > O, ¡aíodt = 1, cuyo segundo 
miembro no depende de 9* (incluyendo también el desplazamiento b(£) pre- 


sente en la desigualdad de Rao—Cramer) y es próximo al valor de J/n, 
donde 


_l| alo) 
qa peo. de 2) 
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2. Desigualdades principales. Antes de enunciar los teoremas respecti- 
vos, señalaremos que la integral en (1) puede considerarse como la esperan- 
za matemática incondicional M(9* — 9)? en el caso bayesiano, cuando 0 
tiene distribución a priori, con una densidad q(/) respecto a la medida de 
Lebesgue. En este caso J = MI 7 ?*(0). 

Designemos por f(x, () = f(x) q(1) la densidad de la distribución com- 
patible de X, mientras que 0- f(x), como antes, designará la derivada de 
Jf:(x) respecto a ft. 

Seguidamente supongamos que N, C 8 es el portador de la función 
h definida en O: N, = (tf: h(1) 4 0], y que N es el portador de f(x, f) en 
7” xe. 

Teorema 1. Supongamos que f(x) es derivable respecto a t, y que la 
función JI(t) es integrable en cualquier intervalo finito. Entonces para 
toda función derivable h(r) finita (o sea, igual a O fuera del intervalo finito), 
tal que Ns C Na es válida la desigualdad 


2 
M(6* - 0 > [M(A(0)/g(0)1 
nM(0)NA(0)/q(0)1) + MIA" (0)/9(6)) 


Ñ ([nar)” 
—AORO/al0de + (A (OYa(od: 
Demostración. Tenemos, en virtud del carácter finito de A(1), 
[ACE)RN) dt = faYvicohu) = 0, 
ERC)AUN dt = — (4()h(0dt. 
Por consiguiente, para toda 0*, 
pn ye = HOOD AO)" dep" (dx) = 


= dl j FADh(Odip" (dx) = ¡acoes (4) 


Estas integrales pueden considerarse, en virtud de la condición N, C Ma, 
como integrales respecto a N. Por lo tanto, podemos multiplicar y dividir 
por f(x, () la expresión subintegral en (4). Entonces obtenemos 


e _pa YUADA(O)" ] _ h(0) 
JE 0) E | = Í h(Qdt = M oy 


De aquí, en virtud de la desigualidad de Cauchy—Buniakovski, resulta 


2 


—_ ——___  —__qQ»>--A=xx—————— 5 
MUSCOR(O) 1 AXE ON sd 
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Sólo queda reducir esta desigualdad a la forma (3). Nótese previamente 
que 
MiL(X, 0] < VIS) 
y que casi para todos” e, 
ML“(X 1) =0. (6) 
La primera de estas afirmaciones se deduce de las relaciones M,|L*(X, 
0] < AMO (x10)]| <€ A(Ma Ga, 01) = nYK(0) , que resulta de la desi- 
gualdad de Cauchy—Buniakovski. Para demostrar la segunda afirmación 


tomemos la función finita arbitraria g(f) que en todas partes tiene la deriva- 
da continua g'(f). Entonces 


[stoyi0Odt = — 8 (O£OOdr. 
Además, 
ICOIMLX, Njar < ASCO VICO de < «o. 


De aquí resulta que se puede cambiar el orden de integración en la expresión 
siguiente: 


je(0MeL(X, Ddt = pi ) ECORCOdtp" (dx) = 


=- a ) 8 (1NiQdta" (dx) = — j 8' (tdt = — ] de(í) = 0. 


El cumplimiento de esta igualdad para todos g precisamente significa 
la validez de (6). 

Ahora podemos transformar el segundo miembro (5). Omitiendo, para 
abreviar, los argumentos de las funciones, obtenemos 


UHADA(O)" 1? _ O AY ; 
m| JUXIGO) | -m|1 q* Fl -m[ (2) Mary] + 


hh h'” 2 6) | (E ) 
2M| Mol! | +¿M[—-] =»nM|(—]7| +M[-—]. 
d | q ¿ | ( q ) q q 
Aquí hemos aprovechado el hecho de que, en virtud de (6), 
m[ 22 Mol | = l E+ M¿L'dt =0 


y Que (véase el $ 16) Mo(L'Y = nI(0). < 
En las afirmaciones posteriores siempre supondremos que /.(x) satisface 
las condiciones del teorema 1. 


* En el $ 16 hemos demostrado que esta igualdad, al cumplirse las condiciones (R), tiene 
lugar para todos f. Aquí nos será suficiente que la misma se cumpla para casi todos 1. 
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Teorema 2. Si la función h(t) = ht) s q(D/I(Y) es finita y derivable, 
entonces 


sn 
M(0* - 6)? > e 7 + L,) > + E. (7) 


"0 
donde H = | | (20. TE Eo 


Observación 1. Las desigualdades dadas en los teoremas 1 y 2 son inte- 
grales desde el punto de vista de que pertenecen a las integrales de 
M¿(0* — £)?. Desde este punto de vista las desigualdades del $ 16 pueden 
llamarse locales. 

Demostración. Esta afirmación se deduce directamente del teorema 1, 
ya que el segundo miembro en (3) se transforma, cuando A = q/I, en 
PUnJ + H). < 

Por lo tanto, vemos que la frontera inferior de los posibles valores de 
M(0* — 0) con grandes valores de n, se distingue poco de la frontera 
7. | 290Dde que es igual al valor de M(93 — 0)? para la estimación 
n nI(t) 

R-eficiente 92. Esto muestra que es racional utilizar las estimaciones eficien- 


tes, puesto que para ellas, cualquiera que sea la función q, casi se alcanza 
el valor extremal de M(09* — 0Y, 
La estimación (7) es inmejorable, lo cual es confirmado por el 
Ejemplo 1. Sea X € Y, ,. Como sabemos, en este caso 7(a) = 1. Supon- 
gamos, luego, que el parámetro a se elige aleatoriamente con una densidad 
suave de q(£), f € (— «o, co). Entonces el segundo miembro de (7) se transfor- 
ma en (n + H)”!, donde 


y 
H= paz dt = Mi(n q(a))"]. 
Es nuestro caso, la estimación bayesiana ag, que corresponde a la distribu- 


ción a priori Q con densidad q y que minimiza M(a* — «)? es igual a 
(véase el $ 10) 


Jada 


AS 
ES jra(o) exp (nxt — (*n/2ydt E jtg(0) exp (-n( - 1*/2)ar 0 
fate) exp (nxt — t?n/2)dt facto exp (—n(x — t)/2)dt 
Es fácil hallar la representación asintótica de esta relación y mostrar que 


ag=x+ TS +0(2). Mig - a =- E + 0(-3-). 
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No obstante, procederemos más sencillamente, suponiendo que 
l - 8/2 
tf) = e A 
10 
Entonces es evidente que H = 1, y el segundo miembro en (7) se convier- 
te en 1/(n + 1). Pero en el ejemplo 11.1 hemos establecido que 


2 
A 


De este modo, la inmejorabilidad de las igualdades (7) y (3) queda de- 
mostrada. 
Teorema 3. Si el intervalo (a - €, a + €) se contiene en O, entonces, 
para toda estimación 0*, 
máx  M:(0* — 1? > E 


tE(a — £,a + E) e máx A) + mE 
e-ta+e 


Demostración. Hagamos uso de la desigualdad 


ae 
máx M40* - y > | M.(0* — gal, 
(Ela — e,a + €) es 
válida para toda densidad q(f) que es igual a cero fuera de (a — €, a + €). 
La afirmación necesaria se deduce del teorema 1 si suponemos en éste 


H0D = q(í = q cost HE le E al < €. 
Entonces 
Mao” e >» —_—_—_ 
ajl(dDatodt + (a (0y'/awat 
donde 


AO 
| ao = 


Se puede señalar que en la función q(1) = cos? (xt/2) se alcanza el míni- 
] 
mo de la funcional í (q'"(109*/q(0dt en la clase de todas las densidades 
-1 
derivables q(í). 
Del teorema 3 se deduce, en particular, que el intervalo de valores de 
Ó para los cuales la estimación 0* es supereficiente no puede tener una longi- 
tud mayor que O(1/vn). 
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3. Desigualdades en el caso cuando la función q(0)/T(9) no es derivable. 
Si la función Ao = q/] no satisface las condiciones del teorema 1, es válida 
la siguiente afirmación útil que permite estimar la asintótica de M(9* — 09y? 
en el caso general. 

Teorema 4. Supongamos que la sucesión de funciones ha(t), depen- 
dientes del parámetro e > O, es tal que cada función h satisface las condi- 
ciones del teorema 1 y 
1) HAS) < Rol, : 

AO) 
2H(e) = |———— dí < oo, 
He) | “0 
Entonces, para todo e > O, a 
mio oy > AOS 
0-0 > JE HO 

La demostración se deduce directamente del teorema 1 si se toma 
h = he. 

Del teorema 4 obtenemos el siguiente colorario importante. 

Teorema S. Si la función q es integrable según Riemann, J < o, en- 
tonces 


M(9* — 07 >2(1 + 8n), 
donde ón = o(1) cuando n -» co. 
Demostración. Pongamos q:(1) = ma ql + u), 
_ (90) si PS >. 
quelo) E si Get) < e, 
Z.(1) = máxte, 1(0), 


_ 1 _qe(v) 
M0 => | EN do < halo. 


Es evidente que la función k¿ es finita y derivable para cualquier e > 0. 

Del hecho de que g(f) es integrable según Riemann se desprende que 
qe(() * a(£) casi en todas las partes cuando e — 0. Para demostrar esto cer- 
ciorémonos de que 


[ la(s) — gíe)ar 10. (9) 


De la integrabilidad de q(r) según Riemann se deduce la convergencia 
2 qu2K6)251 fatode, 


2 qs((2k + DS)25 1 [g(r)de 


204 CAP. 2. TEORÍA DB ESTIMACIÓN DE PARÁMETROS 


cuando 5 — 0. Por eso 
| e(0di> 2 queQkeJze = 


= 3 (A jeuttterss + Y erllar + DeMe) sl [ana 


La relación (9), y junto con ella la convergencia de q«(t) $ q(t), quedan de- 
mostradas. 


Utilizando ahora esta convergencia, obtenemos qelt) thoL0, 


y Je(t) 
de qs(t + v) o 
1 ( qe(t) get) 
dad ( ) ( ) (1) 
y 1 de t+€ de l=e q 
Ol = 2 TG +8) T(t— ds Sr 


H(e) < (0). “dt = 


Ahora podemos hacer uso del teorema 3. ld € e» (a) = n”?, 
n == e, obtenemos £(2) — O, 


2 
M(0* - 0Y > Metodo) = z (1 + 0(0). < 


ni + n 


4. Algunos corolarios. Criterios del carácter asintóticamente bayeslano 
y minimax. Una de las principales conclusiones que pueden sacarse de los 
resultados de este párrafo consiste, hablando en general, en lo siguiente. 
Si existe la estimación asintóticamente R-eficiente, cualquiera que sea otra 
estimación que tomemos, no obtendremos “en total” (o ““por término me- 
dio”) un resultado asintóticamente mejor. Utilicemos este hecho, más tarde, 
en el $ 25. Aquí sólo expondremos los criterios del carácter asintóticamente 
bayesiano y del carácter asintóticamente minimax que se desprenden direc- 
tamente de los teoremas 2 y $. 

Definición 1. La estimación 0f, que posee la propiedad 


Mn(0? - 0 = J + 0(1) (10) 
cuando n — o, se llama R-bayesiana asintóticamente. 


Son las estimaciones para las cuales se alcanza asintóticamente la fron- 
tera inferior de las desviaciones estándar, definida en los teoremas 2.5. Las 
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mismas también podrían denominarse estimaciones R-eficientes “en total” 
(o “por término medio”). 

Recordemos (véase el $ 11) que la estimación 0? se llama asintdticamente 
bayesiana (con respecto a la distribución Q) si para cualquier otra estima- 
ción 0* 


lím sup [Mr (6? — 0y — Mn(6* — 0)*] < 0. (1) 


Corolario 1. Supongamos que se cumplen las condiciones del teorema 
1 y que la funcióN q(t) es integrable según Riemann. Entonces una estima- 
ción asintóticamente R-bayesiana es asintóticamente bayesiana. 

Demostración. Supongamos que 6f es una estimación asintóticamente 
R-bayesiana. En virtud del teorema 5, para toda estimación 0*, 

lím infMn(9* — 0) > J. 
De aquí y de (10) resulta (11). 

También está claro que si existe una estimación asintóticamente 
R-bayesiana, toda estimación asintóticamente bayesiana será R-bayesiana 
(compárese con las observaciones referentes al teorema 16.3). 

Del teorema $ también se desprende el 

Corolario 2. Supongamos que se cumplen las condiciones del teorema 
1 y que la función q(t) es integrable según Riemann. Si 0? y 02 son dos 
estimaciones asintóticamente R-bayesianas, éstas son asintóticamente equi- 
valentes desde el punto de vista siguiente: 


Mn(0? — 01) +0, (07 - 0HVA 70, 
donde la convergencia en probabilidad se entiende respecto a la distribu- 
ción compatible de X y 0 en 2" x 0. 


La demostración es completamente análoga a las demostraciones de los 
teoremas 8.2, 16.4, La igualdad inicial (8.11), en virtud del teorema 5, da 


lím sup Mn(0?-— 0 <0. «< 
En los $5 8 y 11 hemos señalado que para comparar las estimaciones, 


a la par con los valores medios [a(1)m.(0* — f)*dt, pueden considerarse 
los valores máximos 


sup MA(6* — y”, rca. 
t€ 
En calidad de T' se toma todo el conjunto € o la parte de éste que, según 


datos previos, contiene el valor desconocido de 6. Recordemos que la esti- 
mación 0* se llama minimax cuando para toda estimación 9* 


ge _ pm .n _ pe 
sup M:0* —- 1 < sup M+(0 Lp. 
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La estimación 0? se llama asintóticamente minimax cuando para toda 
estimación 0* 


lím sup sup M.¿[Vn(9* — 01? < lím inf sup M,[vn(8* —- ny?. 
no (€ no (€ 


Corolario 3. Supongamos que la información de Fisher I(0) existe y 
es continua. En este caso, si para cualquier segmento T C O, 
lim sup sup M.[Vn(0? — 0? < sup ro, (12) 
n—eo t€ 1€ 
entonces la estimación 0% es asintóticamente minimax, 
Demostración. Es suficiente convencerse de que para cualquier estima- 
ción 0*, 
Mm inf sup M.(Va(0* - 01? > sup 1” 10). (13) 
n— +. TE r€ 


Para cualquier distribución Q en T', con una densidad suave q(1) respecto 
a la medida de Lebesgue, 


sup M:lVn(9* — NP > [Mi[Vnt6* — nPa(oar. 
l 


Según el teorema 2, la integral del segundo miembro es para cualquier esti- 
mación 6?, no menor que J — F/n. Por eso el primer miembro de (13) es 
mayor o igual a 


J= (z “Kda(Odt. 


Pero q es una densidad suave arbitraria y, para un valor dado de e > O, 
la misma siempre se puede elegir, en virtud de la continuidad de /”*(0, 
de modo que 


-]) 0, 
J> sup (1) — €. 


En vista de que e es arbitrario, (13) queda demostrada. < 

En conclusión de este apartado es necesario hacer una observación im- 
portante, que consiste en que, al buscar las estimaciones asintóticamente 
óptimas, es posible limitarse a la clase Ko de estimaciones asintóticamente 
no desplazadas, que hemos introducido en el $ 16. Esto se deduce de las 
consideraciones siguientes. 

Ya hemos señalado que el segundo miembro de la desigualdad del teore- 
ma 5, equivalente a J/n + o(1/n), no depende absolutamente del desplaza- 
miento b(6). Al mismo tiempo, si al construir la frontera inferior de 
M(9* — 9) partimos de la desigualdad de Rao—Cramer dada en el $ 16, 
entonces obtendremos 


M9" - 0) > mín faco | PA 40) dt. 
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Se puede mostrar (compárese con [47]) que este valor mínimo de todos 
los desplazamientos b(0) tiene (con ciertas suposiciones acerca de la suavi- 
dad de q(1) y 1(£)) esa misma forma J/n + o(1/n) y (lo cual es esencial 
para nosotros) se alcanza en el desplazamiento b(9) que posee, cuando 
n > «o, las propiedades 


b'(t) = o(1), 5(1) = o(1/Vn). 


La clase de estimaciones 0* con tales desplazamientos es precisamente 
Ko (véase el $ 16). La salida de 0* de la clase Ko hace inaccesible la frontera 
J/n + o(1/n). Ahora bien, en el enfoque asintótico, cuando las estimacio- 
nes asintóticamente normales se comparan con ayuda de los valores de 
M(0* — 6)? cuando son suaves q(f) e 1(£), es posible limitarse a examinar 
las estimaciones de la clase K = K+ 2 M1 Ko (hemos examinado la clase Ky > 
en el $ 8), puesto que las estimaciones fuera de la clase Xp son “inadmisi- 
bles” desde el punto de vista antes indicado. 

5. Caso multidimensional. En el caso de 9 € R* se pueden obtener los 
análogos para todos los teoremas de este párrafo y hacer las mismas deduc- 
ciones que hemos obtenido para el caso unidimensional. 

En particular, la afirmación del teorema 5, uno de los principales en 
este apartado, tendrá la forma 

d* > J/n + o(1/n), 
donde d? = lay, dy; = M(0? — 007 —-8,), J = MI” (0). 

Los razonamientos relacionados con las estimaciones bayesianas y mini- 
max también conservan su validez cuando en calidad de error de la estima- 
ción se considera el valor 

v(9*) = Mel6* — 0) V(6* — y, 
donde V es una matriz definida no negativamente. Deben llamarse estima- 
ciones bayesianas o minimax (o asintóticamente bayesianas y minimax) las 
estimaciones cuyos errores satisfacen las desigualdades respectivas para 
cualquier matriz V definida no negativamente. 


5 21. Distancias de Kullback—_Leibler, 
de Hellinger y x?. Sus propiedades 


Los resultados de este párrafo serán esenciales para la obtención de los 
resultados principales de la teoría asintótica de estimación, así como para 
los resultados del cap. 3. 

1. Definiciones y propiedades principales de las distancias. 

Sean P y G dos distribuciones en (27 B.,) absolutamente continuas 
respecto a la medida u. Designemos 


N, es el portador de la distribución P: N, = (Vx p(x) > 0]. 
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Definición 1. Se llama distancia de Kullback—Leibler entre las distribu- 
ciones P y G la magnitud 


E px) a pG:) 
e(P, G) = | in-209 pax) = | IL) proud. 

De hecho q:(P, G) no es, por supuesto, una distancia o una métrica 
en sentido general, ya que e:(P, G) no es una función simétrica de P y 
G. No obstante, veremos que q,(P, G) caracteriza en realidad (desde el pun- 
to de vista estadístico) la desviación de G respecto a P. 

De la desigualdad In(1 + v) — v < 0 y la representación 


er(P, G) = — | [1 - (E - 1) Jenca 


se deduce que siempre q1(P, G) > 0. En el lema 6.1 hemos establecido que 
la desigualdad q1(P, G) = 0 sólo es posible si P = G. 

Definición 2. Llamaremos distancia x? entre las distribuciones P y G 
la magnitud 

er(P, G) = | 200 -EY uldr. 
px) 
NANO 

Casi todas las observaciones hechas para la definición 1 se refieren a 
esta distancia. La denominación de x? se explica por razones que serán 
aclaradas más tarde. 


Definición 3. Se llama distancia de Hellinger entre las distribuciones 

P y G la magnitud 
2 
es(P,G)= | (VPO) — YE(o) ) utdx). 
NUNo 

La distancia de Hellinger ya es la función simétrica de P y G, y el valor 
de Vos(P, G) posee todas las propiedades de la métrica (entre las funciones 
Vp(x) y VELO en el espacio métrico La(2 u)). Es fácil notar que 


xP, G) = 21 — [Vpg níax)) < 2. (1) 


Las tres distancias introducidas desempeñan un papel importante en 
distintos problemas de la estadística matemática. Nos convenceremos de 
ello en cierta medida. 

Si mediante estas distancias se caracteriza el grado de proximidad de 
las distribuciones, cuando la relación p/g es próxima a 1, resultará que to- 
das ellas se comportan asintóticamente igual, con una exactitud de hasta 
los factores constantes. En efecto, valiéndose del desarrollo 


(a) 6-0 363 +1) 
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obtenemos 


ai(P, G) = - | las * puídx) == (E- 1). Ppu(dx) = 7 ext, G), 


Q(P, G) = pee p(dx) = 1 - VEY ( + E ) exo > 


-493(P, G). 


De la última igualdad también se deduce que ex(P, G) > qx(P, G). 
Además, q1(P, G) > exfP, G). En efecto, como In (1 + x) < x, entonces 


ep (VE) E) 


o(P, G) =- [1n£ puras > -2( [vos n(de) + 1) = ex(P, G). 


En lo sucesivo examinaremos el caso paramétrico y consideraremos que 
se cumple la condición (4;). Nos interesarán las distancias q;, ¡= 1, 2, 
3, entre las distribuciones P = Po, y G = Po, en (2 B,-), así como entre 
las distribuciones muestrales correspondientes (aquí las designaremos por 
Ps, Po,) en (2”, BDS-). (Señalemos que las distancias tienen sentido para 
las distribuciones arbitrarias, y con la naturaleza de los espacios no están 
relacionadas de ningún modo). Si Np,, C Np,,, podemos escribir 


artPo,, Po.) = [inn Saet) = Ma, ln o 
Un — JoY e > 2 
Pr Pod | ( — my ali) = Mar En ., 


Si no se cumple la condición Nps, C Npg, entonces q2(Po,, Po,), 
a(Po,, Po,) serán mayores que las esperanzas matemáticas correspondien- 
tes en (2). 


Cabe señalar que a la par con (2) tiene lugar la siguiente igualdad útil 
que se desprende de (1): 


Mo JAI = [NT (JA00 ndo) = 


=]- 3 ex(Po,, P.,). (3) 


La relación entre las distancias qi(Po,, Po.) y Ps P;,) se establece por 
la afirmación siguiente. 


14—8030 
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Teorema 1. 
expo, P4,) = nqr(Pa,, Pa), 
1 + 0(Po,, Po) = (1 + EEN Po)", (4) 


ls , ePs,, Pi) = ( -> exPo,, Pa) 


La o es casi evidente si se supone, para abreviar, que 
Nro, E Ns, (en el caso general los cálculos conservarán, de hecho, su va- 
lidez, pero serán un poco más voluminosos). En efecto, en este caso pode- 
mos hacer uso de las igualdades (2). Entonces la primera de las relaciones 
(4) se deduce directamente del ecño de que 


SA) In Jo (xi) 
PAR) Jo Ax) * 


Seguidamente, en virtud de (2), 
1 + 02(Po,, Po) = Ma Y (A0/fo AY, 
l - Qx(Po,, Po,/2 => Mo, Ve (x1)/F0, (11) , 


y las relaciones de este mismo tipo son válidas para las distancias entre 
Ps, y P;, (sustituyendo en los segundos miembros x, por X). Como 


f(x) Se(x1) Ne fa) Ne ]* 
Me (7.00) sis TI er) - [mo Ja Y | 
de aquí, cuando a = 2 y a = 1/2, obtenemos (4). 


Le recomendamos al lector que demuestre este teorema en el caso gene- 
ral (o sea, cuando no se cumple la condición Npy, C Npp,). <a 


Del teorema 1 se desprende el 
Corolario 1. 


In 


os(Ps,, P,,) == nos(Po,, P»,). 
En efecto, 1-—$”<(-—B)jn para cualquier $ > 0. Suponiendo 
B=1- > ox(Ps,, Ps,), obtenemos de (4), 


oe. Po) = A1 — $”) <2A1 — Bi = nox(Pa,, Po). < 


2. Relación de las distancias de Hellinger y otras con la información 
de Fisher. Entre las tres distancias introducidas en el apartado anterior, 
en lo sucesivo, la distancia de Hellinger tendrá para nosotros, el mayor 
interés. Al mismo tiempo, el carácter de las afirmaciones principales, ex- 
puestas más abajo (teoremas 2 y 3), y el carácter de las demostraciones 
serán iguales para las tres distancias. Por eso, para abreviar, nos limitare- 
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mos, en este apartado, a estudiar la distancia de Hellinger, que designare- 
mos (omitiendo el índice del símbolo p3) del siguiente modo: 


Po, Po) = [(VTo — VTaz) ulax). 
Pongamos r(01, 02) = o(Ps,, Po). 
Lema 1. Si fe(x), para c.t. [u] valores de x, es continua respecto a 0, 
0,  0,, entonces 
r(9”, 0”) r(0,, 02) 


lím inf 5 
ca A ar sl 

Si la función fox) , para c.t. [a] valores de x, es derivable respecto 
a 6, entonces 


LATA ds 
Además, 
1 
A E | 1001 + (02 — 009 Y 
Lo) 


Aquí se supone, claro está, que los valores de 6”, 0”, 0,, 62, Ó pertenecen 
a O. 


Demostración. Para verificar (5) es suficiente utilizar el lema de Fatou 
y la continuidad de f(x) en la relación 


lím inf A ) > | Jim, int (2 Je: ode 4) (dx). 
5% SAS al 0" 0, 


En vista de que, cuando 0, = 6, = 0, la expresión subintegral en la última 
integral es igual a (43)*/(4£s), obtenemos (6). 
Para demostrar (7) pongamos a = 6, — 8, y representemos el incremen- 


to Yfo, — Vfo, en la forma 
0, 1 
1 1% a [ Fo. +ay 
fal dt =- dy. 
2 | Vh E S 
En virtud de la desigualdad de Cauchy-——Buniakovski, 


1 1 
Ao. = Va Y = a? Os + ay o a? (LL, +) 
( So, Fo. ) == E | as ay] E E | PER 


Utilizando la negatividad de la función subintegral, podemos cambiar el 
14* 
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orden de integración en las relaciones siguientes: 


HA al ¡(Ge so = q | 10, + 0905 


La desigualdad (7?) queda demostrada. < 
Pongamos r(A) = r(6, 0 + A). Del lema 1 se deduce directamente el 


Teorema 2. Si la función 4 fox) , para ct. [u] valores de x, es derivable 
respecto a 0, e 1(0) es continua, entonces existe 


ría) _ 16) 
rr Sr A o 


Observación 1. Esta afirmación también será válida para las distancias 
01 y ez si a 


r(A) = q ero, Posa), r(A) = 5 LP, Po+ a). 


En este caso, la ada (6) se ES exactamente igual que en el 
lema 1. La demostración de (8) puede exigir la utilización de condiciones 
adicionales de regularidad (próximas a las condiciones (R)) que aseguren 
la validez del paso límite bajo el signo integral. 

Así pues, eri(Ps, Po + a), ¿ = 1, 2, 3, se comportan asintóticamente igual, 
e F(0) caractariza la velocidad de su tendencia hacia el cero cuando 4 > 0 


pues z F(0) es la segunda derivada de r(v) en el punto yv = O 


Si se pone r“(A) = 0(P%,,, P5), entonces, de los teoremas 1 y 2 re- 
sultará Pe 
r”*(A) _ nI(0) 
Je UN. DE E 
Estas mismas relaciones se mantendrán para las distancias p, y Q2 

3. Existencia de fronteras uniformes para r(A/A? En lo sucesivo, la 
existencia de tales fronteras nos permitirá obtener estimaciones muy útiles 
para los momentos de relación de verosimilitud. 

A fin de simplificar la exposición o evitar la introducción de otras con- 
diciones más voluminosas, en las investigaciones posteriores a menudo esti- 
maremos que se cumple la condición 

(A.): el conjunto O es compacto. 

Desde el punto de vista de las aplicaciones, esta condición, que significa 
el carácter limitado y cerrado del conjunto paramétrico, por lo general, 
no es limitativa. 

Más adelante también utilizaremos la condición (40) que hemos intro- 
ducido en el $ 6 y que significa que fo, > fo, cuando 6, + 6, Con esta 
condición, /(01, 67) > O cuando 0, + 6. 


Y 21. DISTANCIAS DB KULLBACK — LEJBLBR 213 


Teorema 3. Si se cumplen las condiciones (Ao), (4.), y 0 < 1(0) < 
< 4h < «o para todos 0 € O, entonces existe una constante g > 0 tal que 
para todos 0,, 06, € O, 

P (61, 07) 


¿<a <? (9) 


Demostración. La estimación superior se deduce directamente de (7). 
Mostremos ahora, que 
r(0s, 02) 


inf > 0. 10 
in 19-87? £ (10) 


61,03 


Supongamos que (10) no es cierta, entonces habrá una sucesión (A”, 4%” 
tal que 


na”, am 
107” — 63” 
cuando n —> oo. En virtud de la condición (4.) podemos considerar, sin 
limitar la generalidad, que 90? — 9, € O, 0” = 8, € O. Si 0, + 6, entonces 
(11) contradice ($), ya que, en virtud de la condición (40), r(01, 62) > O. 


Pero si 01 = 02 = 0, entonces (11) contradice (6), ya que 7(0) > 0. El teorema 
queda demostrado. 


4. Caso multidimensional, En este apartado obtendremos los análogos 
de las afirmaciones de los puntos 2 y 3 para el parámetro multidimensional 
(el contenido del punto 1 no está relacionado con la dimensión de 0). Desig- 
nemos por p(x, 0) la función vectorial con coordenadas 

1 Ofo(x) 
X, 0) = —_—. 
pix 0) SAO 5 36, 


Entonces la derivada de la función Vf+(x) en el sentido del vector unitario 
w= (ur, ..., cx) es igual a (Vf), w) = (grad Y fo(x) , 0) => (olx, 
0), w). La matriz de Fisher /(0) en estas designaciones es igual a 

160) = fo*(x, 0), PQ 0)u(dx). 


Supongamos que lu] significa la norma euclídea u = (u;, ..., ux). 

En el caso multidimensional tiene lugar la siguiente generalización del 
lema 1. 

Lema 1A. La primera afirmación del lema 1 (véase (S)) conserva por 
completo su validez cuando k > 1. 

Si la función Y f(x) , cuando c.t. [u] valores de x, es derivable respecto 


40,0" >0,0" =0' +08, 0” —w, lw”| = Jujl, $0, entonces 
._p. M0", 0”) 

f 
lím in 0707 


>0 (11) 


> a wI(Ojw*. (12) 
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Además, Si w, lw| = 1 es un vector colineal a 02 — 6,, de modo que 
9: = 0, + aw, a = |6> — 01, entonces 
! 


r(9,, 02) 1 T 
87 al < a | w1(0, + awy)jw" dy. (13) 


Demostración. La primera afirmación del lema 1 no está relacionada 


con la dimensión. La segunda se deduce del lema de Fatou y de las rela- 
ciones 


, ”» , — > 2 
lím Mo > [lim A Ar pídx) = 


=4 foto 0), arta = aloja”. 
Para demostrar (13) indicaremos que 


Va AP q | (00% 0 + yu), day > 
0 


l 
=> | (px, 0, + ayw), w)dy; 
0 


r(01, 02) = ca | | | (p(x 01 + ayu), way | 'nax) < 
S 1 
< e | | (p(x, 01 + ayu), wdyu(dx) = 
)] ro 1 
e | | (b% 01 + ayu), utaay = E | WO + ayudo dy, < 
Ed 


Pongamos, como antes, r(A) = r(0, 9 + A). Del lema 1A se deduce el 


Teorema 2A. Si la función V'fo(x) es derivable cuando c.s. |u| valores 


de x, y la matriz 1(0) es continua, entonces para cualquier vector w de longi- 
tud unitaria existe 


lím 
5=> 8 


r(6w) _1 T 
— 4 al(0)w . 
Al igual que en el caso unidimensional, del lema 14 también podemos 


obtener el corolario siguiente. Designemos por Sp /(0) la traza de la matriz 
1(0). 
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Teorema 3A. Si se cumplen las condiciones (Ag), (4.), y la matriz (0) 
es positivamente definida en O, 4h = sup Sp /(0) < «o, entonces existe una 
constante g > Ó tal que para todos d , 060€0 

¿sE <a (14) 
(0, — 9, 

Demostración. Designemos por A1(0) y Ax(0) los números propios, mí- 

nimo y máximo, respectivamente, de la matriz 7(0), así que cuando |w| = 1, 


A1(0) < o1(0)w? < Ax(0). (15) 
Según las condiciones del teorema, A1(0) > 0 siempre en 0. Como 
(o, w) < lpl? = 2 pj entonces 
J=1 


OS wYn(dx) = w(0)u? < SpI(0) 
2 


y, por consiguiente, Ax(0) < Sp1(0) < 4h. De la desigualdad (13) obtenemos 
l 


ATACA < a | Arx(9: + aywidy < h. 
101 — 0»| 4 y 


Demostremos ahora la segunda desigualdad en (14). Supongamos que 
Ésta no es cierta. Entonces, al igual que en el teorema 3, habrá una sucesión 
(7, 4), A” —0,€0, 8” —>6,€ 0, para la cual será válida (11). Si 
91 4 9,, esto contradirá (5). Si 6, = 62 = 6, entonces, en virtud de la com- 
pacticidad de la esfera |w| = 1, se puede considerar, sin limitar la generali- 
dad, que AU = AY + WM, rw, [a] = lv] = 1. Pero en este caso 
(11) contradirá (12) y (15). «< 

5* Relación entre las distancias sujetas a examen y las estimaciones, 
Examinemos la distancia de Kullback—_Leibler entre la distribución Pp y 
la distribución G que no depende de 6: 


o1(G, Ps) = [in dE Gas) — | In/o40G(as). 


Aquí sólo depende de 8 el segundo sumando 
d(Ps, G) = — | In f(0)G(dx). 
Por otro lado, recordemos que la e.v.m. ha sido definida en el $ 6 como 


valor de O con el que se minimiza d(Po, P*). Si la distribución de x, es 
discreta, y p es la medida de cálculo, entonces la expresión 


d(P2 Pr = — [in dPn pe(dx) 
dy 


tiene sentido, 21(P?, Ps) = d(Pa PX) — d(P?, P£) y, por consiguiente, pode- 
mos considerar que la e.v.m. minimiza la distancia de Kullback—-_Leibler 
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ex(P*, Po) entre Po y P?. En el caso general tal interpretación puede ser 
aceptada sólo convencionalmente. 

Para las distribuciones discretas de x, también se pueden examinar las 
distancias pi(Pa P?) cuando ¡ = 2, 3, así como las estimaciones que minimi- 
zan estas distancias. Por ejemplo, cuando ¿ = 2 obtenemos 


fv(a;) 


donde », es el número de elementos de la muestra, los cuales han caído 
en el punto 4;, para el cual fo(ai) = Po(( a) > O. Esta es la estadística x* 
(véase los 55 7 y 8), debido a lo cual también hemos dado tal denominación 
a la distancia q». 

En vista de que las distancias q; poseen propiedades asintóticas seme- 
jantes, las estimaciones que las minimizan, como será aclarado más tarde, 
coincidirán asintóticamente. 


y 2 
+ - filas) 
olPa Pp y 
i 


$ 22* Desigualdad de diferencias del tipo Rao— Cramer 


Este párrafo está un poco apartado de la exposición principal Aquí tratare- 
mos de responder, aunque sea parcialmente, a la pregunta acerca de qué 
es lo que ocurre con la frontera inferior admisible para Mp(9* — 0y en 
el caso irregular, o sea, en el caso cuando la función f(x) no es derivable 
respecto a 6 O cuando (0) = oo. 

Comenzaremos por el ejemplo que muestra que, en estas condiciones, 
el comportamiento de las desviaciones estándar (o de sus varianzas) puede 
diferenciarse totalmente del segundo miembro de la desigualdad de Rao— 
Cramer. 

Ejemplo 1. Sea X € Use Aquí, la condición (R) no se cumple, ya que 
la función fa(x) es discontinua. Como sabemos, para esta familia estadística 
S = máx x, es completa y suficiente (véase el ejemplo 14.3). Tomemos la 
estimación no desplazada 0” = 2x,. Entonces, en virtud de los resultados 
obtenidos en el $ 14, la estadística 0? = 2Ms(x1/5) será eficiente. Calcule- 
mos el valor de Me(x,/5). Como Pe(S < z) = (2/0), 2 € [0, 0), entonces 
S tiene una densidad igual a nz””'/0” en [0, 0) e igual a cero fuera de 
ese intervalo. Para hallar la distribución condicional P(B/s) = Po(x, € 
€ B/S) = s) de la magnitud x,, a condición de que S = s, utilizaremos la 
regla (10.2): 


P(dy/s) = PeQu € dy/S = s) = PS € dx) 
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Aquí el numerador es igual a 
-2 
Y a-e cuando y<S 


ds ss”? E 
Po(x, € dy, S€ dx) = GT cuando y =S, 
0 cuando y >s. 


De aquí se deduce que P(dy/s) = le DY cuando 0O%<Xy<S, 
PUs)/s) = 1/n. Por lo tanto, 


Mox1/S) = [> n-1 ay +2= 30D 42- n +1 S 


ns 2n n 2n 
e =s(1 +5): 
Tenemos 1 A pe 
D¿07 = Mo(03* — E = *(1+1) a tests 


n(n + 2) n(n + 2) * 
Como 63 es eficiente, para toda estimación no desplazada 0”, 
> E SA 
D.0* > a+ D" (2) 


Ahora bien, para grandes valores de n, la desviación estándar de 
Mo(03 — 0)* tendrá un orden de pequeñez de 1/n?. Desde el punto de vista 
de la frontera inferior de la desigualdad de Rao——Cramer, que tiene un 
orden de 1/n, la misma constituye una exactitud anormalmente alta*. Se 
puede mostrar que ésta es la exactitud con la que, a partir de la muestra, 
se determinan cualesquiera puntos de saltos de fe(x) prohibidos por la con- 
dición (R)). En el ejemplo 7.4, dedicado a la estimación de la mediana, 
hemos visto que los puntos donde la densidad /s(x) es infinita, se pueden 
determinar aún más exactamente, así que, en términos generales, cuanto 
mayor sea la alteración de la regularidad en el punto, tanto más exactamente 
será apreciado este punto por la muestra. Digamos, si Y G Ps, donde 


P, = 5 UVo,o + 3 lo, lo es la distribución concentrada en el punto 0, entonces 


% Para el parámetro 0 también existen estimaciones cuya varianza tiene el orden de 1/n. 
Por ejemplo, para la estimación 0 = 22 tenemos MI" = 0, DIR La 
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PAS + 0) = 27" "(S = máx xy), así que la varianza de 0* — 6, cuando 
6* = S, decrecerá exponencialmente con el aumento de ». 

¿Será posible en estas condiciones indicar la frontera inferior para la 
varianza de las estimaciones? Más adelante obtendremos una desigualdad 
análoga a la de Rao—Cramer, mediante la cual tales fronteras pueden ser 
construidas cuando las condiciones de regularidad son menos rigurosas que 
la condición (R). 

Solamente supondremos que se cumple la condición (A,.), aunque tam- 
poco eso tiene mucha importancia (véase la observación al final del 
párrafo). 

Designemos por Ap(6) el incremento de la función (0) en el intervalo 
(0, 9 + A); por N7,, el portador en 2” de la distribución de la muestra: 
Nro = lx fe(x) 0) y pongamos N" = Ne, UN, 4. 


Teorema 1. (Desigualdad de Chapman-——Robbins). Sea 0£€80, 
0 + A€ 0, a(0) = Mo6? Entonces, para cualquier A x 0, 


2 2 
eS (A.(0) _ (60) 


= __——> (3) 
[Lar /f0rtax) Pera Po) 
donde q» es la distancia x? examinada en el $ 21. Aquí, para las estimaciones 
no desplazadus es necesario sustituir el numerador por A?. 


En virtud del teorema 21.1, el denominador en (3) tiene la forma 
aPr.a Po) = (1 + 1r2(4) — 1, donde 


_ — (1Añ00j 
m4) = a2Po.a Po) = A u(dx). (4) 
Ahora bien, cuanto mayor sea la distancia o.(Po+a Ps) entre Po,a 
y Po (al ser registrado A), tanto menor será la frontera inferior para Dé?*. 
ij Posa es absolutamente continua respecto a Ps entonces 
Nr... CN» =N" qíPi+a Pi) puede escribirse en la forma (véase 


(21.2)) E 
aPro Ph) > Moo | ; 


> Afexi) |? 
análogamente, r2(4) = Mo al d 

Pero si la distribución P++a no es absolutamente continua respecto a 
Pa entonces existe un subconjunto de Np,., de medida positiva Ps. a en 
el que fo(x) = 0, así que la integral en (4) se vuelve infinita, y la propia 
desigualdad (3) se vuelve trivial. Es necesario señalar otra vez, que en este 
caso la expresión Me[AfLAO/fICOT, entendida como integral respecto a 
Np,, puede permanecer finita. 
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Demostración del teorema 1. De lo dicho anteriormente se deduce que, 
sin limitar la generalidad, podemos considerar que P+, a es absolutamente 
continua respecto a Po, así que N?,,, C Np, = N”. Como fo(X) y fe + a(c) 
es la densidad en 2”, entonces 


¡Agp (dx) = 0. 
Además, 
(0*af:(0)4"(dx) = Aa(6). 
De aquí se desprende que 


[ (0* — aO0NASx) (dx) = 5a(8). (5) 
N 


En el conjunto N” podemos representar la función subintegral de (5) en 
forma del producto 


(9 - ANFATOS - Mr 


Aplicando luego la desigualdad de Cauchy—Buniakovski, obtenernos 


2 
(A2(0)* < ¡ (0* — OPLOu" a) | Ar pd. < 
NN 


NN" 


En lo sucesivo, según las observaciones hechas más arriba, nos limitare- 
mos, al igual que en la demostración del teorema 1, al caso cuando P+,a 
es absolutamente continua respecto a Po (de lo contrario la desigualdad 
(3) se vuelve trivial). 

Corolario 1. Si se cumplen las condiciones de regularidad que aseguran 
la existencia (véase la observación 21.1 al teorema 21.2) de 
lim r(AY/ a? = 1(0), entonces 


(a” (0) 
D.0* > AO > (6) 
donde a. (06) = lím sup Aa(0) ; 
A-=0 A 
Para obtener (6) del teorema 1 sólo es necesario notar que podemos 
elegir la sucesión A —> 0 de modo que 20 -., aw(6). < 


La desigualdad (6) es, según su forma, cierta generalización de la desi- 
gualdad de Rao—Cramer (generalización, lo más probable, ficticia, ya que 
las condiciones de regularidad mencionadas conducen, por lo visto, a la 
existencia de a'(0)). 
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La desiguaidad (3), por supuesto, se denomina desigualdad de diferen- 
cias, a distinción de la desigualdad (6) que podría denominarse desigualdad 
diferencial. 

Ahora bien, si m(A) — F(0)A? (esto corresponde al hecho de que fo es 
derivable), entonces de la desigualdad de diferencias de Chapman— 
Robbins se deduce la desigualdad diferencial de Rao— Cramer. 

Pero si la función /s no es derivable, entonces, al disminuir A, el com- 
portamiento de r.(A4) será diferente. 

Si, digamos, fa es derivable en todas partes, a excepción de un número 
finito de puntos de discontinuidad 0 = 6(x) que dependen de x, entonces 
tendremos 


ri(A) — clal. (0) 


Esto puede ser aclarado de la forma más sencilla a base de un ejemplo 
muy típico, examinado al principio del párrafo. 

Sea X € Uo,s. Para que sea cumplida la condición de continuidad abso- 
luta de P+., 4 respecto a Pa en el caso de P, = Uo 9 consideraremos que 
A < 0, ja] < 6. Entonces 


42 75 para x€[0, 0 + Al, 


Af) = 4-3 para x€ [0 +A, 4, 
0 para x¿1[0, 0), 


1) Í$+A 0 
LARA a Y 1 A 
0 0+ 


9(0 + A) 9 * 


Lo esencial aquí es la existencia del intervalo cuya longitud es compara- 
ble con A y en el que |Afs(x)] > e > 0, donde c no depende de A. Esto 
asegura precisamente el orden de pequeñez (7) para r2(4). 

Volviendo a nuestro ejemplo, vemos que para las estimaciones no des- 
plazadas del parámetro 0, 


A? 
TEE: E 
1) 0(0 + A) 
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¿Cuál es el orden de pequeñez del segundo miembro de esta desigualdad 
cuando n —> «0? Suponiendo |A| = y06/n, obtenemos 


2 
De" > L máx y == 
E ET RE A l 


n n(n — y) — 


Está claro que la expresión con signo máx es asintóticamente equivalen- 
te a h= máx y*/(e! — 1) = 0,65, así que 


DO” > L, (4 + o(D). 


En cuanto al orden de pequeñez, esta desigualdad tiene el mismo segundo 
miembro que la desigualdad inmejorable (2), pero el factor constante de 
6'/n? en (2) es “mejor” y es igual a 1. 

A la par con (7) pueden aparecer también otras velocidades de conver- 
gencia de r(A) hacia el cero, cuando A — 0. Podemos obtener, por ejemplo, 
tanto m(A) — cA*, a < 1, si fo(x) tiene líneas de 0 = 0(x) const, al apro- 
ximarse a las cuales fs(x) — oo; como también r(A) — cA*, 2> a > 1l, si 
fo es continua respecto a Ó pero no es derivable sino satisface solamente 
la condición de Hólder en el entorno de cierta línea 6 = 0(x) + const. No 
es difícil ver que el orden de pequeñez 


A? 
Mé ay 


para a < 2 será definido por el valor de A = (yen)!'””, así que 


A J] ye 


En el caso “regular” a = 2, el máximo respecto a y se obtiene en el punto 
límite y = 0 (A = 0). 

Concluyendo este párrafo señalaremos que las estimaciones para D9* 
también pueden ser obtenidas, de modo análogo, para las no absolutamente 
bicontinuas Pe y Po, a Para esto, en (5) es necesario multiplicar y dividir 
la función subintegral no por VYfo(x) , sino por Vf) + fora(0). La 
condición (A, ) tampoco es tan esencial, ya que las medidas de Pa, y Posa 


siempre son absolutamente continuas respecto a 5 (Po + Po, a). 
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$ 23. Desigualdades auxiliares para la relación 
de verosimilitud. Conciliabílidad de las estimaciones 
de la verosimilitud máxima 


En los $$ 12—-16 hemos estudiado las cuestiones relacionadas con la exis- 
tencia y la determinación, en forma explícita, de las estimaciones eficientes 
y R-eficientes. Hemos visto que éstas existen no siempre, ni mucho menos, 
y pueden ser halladas tan sólo en el caso cuando la función de verosimilitud 
tiene una forma especial o cuando conocemos, de manera explícita, la esta- 
dística suficiente completa (la primera de estas condiciones a menudo con- 
duce a la segunda (véase el $ 15)). 

Pasemos ahora a la construcción de las estimaciones asintóticamente 
óptimas. Aquí las condiciones de su existencia serán mucho más amplias. 
Los resultados respectivos se apoyan, ante todo, en las propiedades asintóti- 
cas de la función 

J + u(A) 


2 == O 


donde, como antes, L(X, 0) = >) [Qu, 6). Por regla general, el número 
¡w1 


= exp (Z(A, 0 + u) — L(X, 0)), (1) 


9 en (1) se considerará registrado y representará el valor real del parámetro, 
O sea, tal que X€ PA En este caso Z(u) es la función de los variables u 
y X y, por lo tanto, junto con la función de verosimilitud fa + u(X), será 
la función aleatoria de la variable u. Llamaremos relación de verosimilitud 
la función Z(u) que desempeña un papel muy importante en la estadística 
matemática. La tarea principal de este párrafo y del párrafo siguiente con- 
siste en estudiar las propiedades de Z(1). 

Será establecido que Z(:4) es próxima a cero fuera del entorno del punto 
u = 0. En el entorno de este punto, Z(u) se aproxima, desde cierto punto 
de vista, a la función delta, mejor dicho, Z(v/vYn) se aproxima asintótica- 
mente, cuando n > «o, a la función de densidad de la ley normal. 

En los $$ 23—26 examinaremos sólo el parámetro unidimensional. El 
caso del parámetro multidimensional será investigado separadamente en 
el $ 28. 

En las estimaciones posteriores desempeñará un gran papel la distancia 
de Hellinger 


ru) = Pou, Po) = (Afina) — ATACÓ) pax) 


entre las distribuciones Po +. y Po. Hemos examinado esta distancia en 
el $ 21, Recordemos que 


0< r(u) = 2(1 - [Vf +0) (dx) < 2, 
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así que 


MY tan - [cañas pídx) =1—rH(uY/2 (2) 
MoZ**(u) = (1 — r(u)/2)”. (3) 


En lo que se refiere a la familia paramétrica (Pa), supondremos en este 
párrafo y en los párrafos siguientes que a la par con (A,) se cumplen las 
condiciones (A0) (fa,() + fo,(x) para 0, 4 0, y (4.) (O es un compacto). 
El hecho de que la última condición es poco importante desde el punto 
de vista de aplicaciones, ha sido mencionado anteriormente. Esto se debe 
a que en los problemas reales, de ordinario es posible señalar las fronteras 
de los posibles valores de 6, partiendo de las consideraciones a priori. Para 
simplificar la exposición, allí donde sea necesario, también supondremos 
que O es convexo (en el caso unidimensional esto quiere decir que O = 
= la, b], -w<a<b< 0), 

Además, en este párrafo supondremos que la función Vf es derivable 
para c.t. [u] valores de x, y que la información de Fisher 


mm fiGoy fs) 
sd pun HA Me (ny 


es estrictamente positiva y está limitada en O. En estas condiciones hemos 
demostrado en el teorema 21.3 que para todos 0 y 6 + u admisibles (o sea, 


tales que 06€ O, Ó + u € 8) para la magnitud r(u) = ¿(Po+u, Po) es válida 
la desigualdad 


inn 2 > ¿> 0. (4) 


1. Desigualdades principales. Designemos, para abreviar, p(u) = 


= Z“*(u) y supongamos que se cumplen todas las condiciones anterior- 
mente citadas. 


Teorema 1. 
MoZ'(u) < e 000, Mep() < e es, (5) 
Mol» (u)| <3 AF a) e as, 
De las investigaciones realizadas en el $ 21 se deduce que para los valores 


u = o(1) en estas desigualdades, en vez de g se pueden tomar los valores 
tan próximos como se quiera a /¿(0). 


Demostración. En virtud de (3) y (4) tenemos 
M0Z**(u) = (1 — r(u)/2) < exp [ —nr(u)/2] < exp [ — ngu?/2). 
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Luego, en virtud de la desigualdad de Cauchy — Buniakovski, 

Moplu) < [MoZ'(u)-MoZ(10)1? = [MoZ UN? genre, 
Volviendo a utilizar la desigualdad de Cauchy — Buniakovski y la relación 
p'(u) =P LUX 0 +92), 

hallamos 
Molp'(u)] = 3 MolL'(X, 0 + IZ Yu) Zu) < 


<3 [MoL'(X, 0 + )PZ()-MeZ AN? 


A E 
Teorema 2. Para todos 2 n231 
Pol sup Zlw/vm £ ce” “ee 
ol MES ( Ya) 


donde c = 2 + 3VYxl0/g , lo = sup 1(9) no dependen de 0. 


Para demostrar el teorema necesitaremos el 
Lema 1. Para todos x > 0, 


| e” "dv s< V2r e"? 
XxX 


Demostración”. La función característica de la variable aleatoria 
E E 9,1 es igual a Me"! = e *? y está definida en todo el plano. Supo- 
niendo £ = —íx obtendremos Me”! = e”?. De aquí, con ayuda de la de- 
sigualdad de Chébishev, obtenemos 


P(E > x) = Ple > e) £e” "Me" =e "2 < 
Demostración del teorema 2. Estimemos la función 
H(6) = Mo cu ptou). 
vi>b 


Si ve [0 + $, b], entonces 


9 
plv — 0) = p(ó) + | p'(uldu < p(8) + | lp'(u)du. 


b=0 


% Para grandes x son más exactas las desigualdades siguientes; 


¿ra [eras <l¿-?n 
x+1 x 


las cuales puoden ser fácilmente obtenidas por el lector, comparando las derivadas de las 
funciones sujetas a examen (os valores de las propias funciones coinciden cuando x = «), 
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Como aquí el segundo miembro no depende de v, entonces 
sup plu) < pló) + S 19" Ge)ldu, 


uzó 
H.(5) = Mo sup p(u) < Mep(5) + j Molp '(u)|du. 


u»ó 
De aquí, en virtud del teorema 1 obtenemos 


H,(59)<e “e + 3 vn TO + u) e” *8%qu, 
upo 
A base del lema 1, 


H4 (5) £e 704 +4 3 vnh | e tg 
ju] > 5 


Sens +2 2078 ( e= “du < cr +5 VTbZE ). 
vx*8J/ng7Z 


Está claro que una estimación exactamente igual, será válida para la 
función 


H-(6) = sup p(u). 
“5 —3 
Por eso 
H(6) s H+(8) + H-(8) £Q + 3 Vxh/8 de "*"*. 
Queda hacer uso de la desigualdad de Chébishev: 
Po(sup Z(1) > e*) = Po(sup pls) > e7%) <€ Hió)er 4%. a 
UE 1» 8 
2. Estimaciones para la distribución y los momentos de la ev.m. Conci- 
Uabilidad de la ev.m. 
Teorema 3. Existen valores de c< o, £ > 0 rales, que 
Po(Vn(6* — 0) > 6) S ce” 19* (6) 
para todos v y nl. 
Demostración. Del teorema 2 se desprende que 
Po( sup Z(t) > 1 A. 
a (0>6€ ce 
Queda hacer uso de la relación 
6 -0|>85) = fsup Z(£ Z(N]| € Z(t 0) = 1 
4 |>8) [sup (1) > sup (0) (sur (1) > 2(0) =1] (7) 


cuando 5= un. <a 
158030 
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Corolarío 1. Supongamos que Un + «o es toda sucesión indefinidamente 
creciente. Entonces 


(Ó* — 0)Vn/un 30. (3) 
No obstante, si Un son tales que para cualquier au > 0 
Nec < oo, (9) 
entonces 
(Ó* — 0) n/un — 0. (10) 
C.B. 


Estas relaciones son, evidentemente, las amplificaciones de la conciliabi- 
lidad (Ó* — 9 > 0) y de la conciliabilidad fuerte (Ó” — 6 —+ 0) de la ev.m., 
respectivamente. e 

Demostración. La relación (8) se deduce directamente de (6) si en esta 
última se pone v = Sun. La relación (10) también se desprende de (6), ya 
que la suma de los segundos miembros en (6), al cumplirse (9), formará 
una serie convergente. < 

Por ejemplo, incluso una sucesión tan lentamente creciente como 
Un = Inn satisface la condición (9), así que”? 

(0* -— 9 Vn/nn — 0. 
C.s. 


Corolario 2. Existe un valor c; < co, no dependiente de n y 0, tal que 
para todo a < g/5, 


Mo exp [a(u*)) < c,, donde u* = vn(Ó* — 0). (11) 
Demostración. Integrando por partes, obtenemos 
Me”* = — je es" dP((E| > v) =1 + 20 Í ve"”P(|E| > v)av. 


Por eso, en virtud del teorema 3, 


Mper “Y” sg1+ ZE. [venera =(¡< 00, «< 
0 


$ 24. Propiedades asintóticas de la relación de verosimilitud 


En el párrafo precedente hemos establecido una serie de desigualdades para 
Z(u). Determinemos ahora la distribución límite para tales funciones ale- 
atorias. Esto se hace cuando se cumpla la condición (R) del $ 16. No obs- 
tante, para simplificar los razonamientos, introduzcamos ciertas 


De la observación 25.2 resultará que (10) también es válida para u, que crecen aún 
más lentamente. 
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suposiciones adicionales que no siempre están relacionadas con la esencia 
de la cuestión, pero hacen más breves y más claras las demostraciones. 

Designemos con el símbolo (RR), las condiciones introducidas para in- 
dicar asimismo que tales son las condiciones de regularidad y que ellas 
intensifican las condiciones (R). 

Condiciones (RR): 

1) se cumplen las condiciones (40), (44), (R). 

2) la función HKx, 0) para c.t. [y] valores de x es dos veces continuamente 
derivable respecto a 0. La función |!” (x, t)| es mayorada por la función 
Kx) que no depende de t: IU” (x f)| < H(x), para la cual la integral 


Mex) = [100400p(ax) 


converge uniformemente en t€ 0”, 
Por convergencia uniforme de la integral entendemos la convergencia” *? 
sup | ICI (uldx) > 0 


xo] > 
cuando N => oo. 


Posteriormente necesitaremos las dos propiedades siguientes, que se de- 
ducen de (RR): 


1) Validez de la derivación doble respecto al parámetro bajo el signo 
de integral en la igualdad 
(febodu(dx) = 1 
que significa la validez de las relaciones 
(MéCOaídx) = 0, [$bodu(dx) = 0. (1) 
2) Convergencia uniforme de la integral 
1(0) = $U(x, 0 fo00u(ax). 
(esta propiedad se deduce de (R) y se necesitará en el $ 29). 


2 Toda la exposición ulterior conservará su validez si la condición y la existencia de la 
mayorante se debilitan del modo siguiente: la región O puede ser cubierta por el número finito 
de regiones O,, ..., O, de tal modo que cuando 0 € 9, la función /”(x, 6) es mayorada por 
la función ¿y (x) que no depende de tf: 1” (x, | < ka), para la cual la integral 


Mela) = [4 ¡CYCOn(do) 
converge uniformemente end€0,, JJ =1l, ...,S. 

*) Tal comprensión de la convergencia uniforme se halla en concordancia con la conver- 
gencia uniforme utilizada en el teorema 1.5.4. Aquí ella pertenecía a la función /() = x. A 
su vez, la misma no es la convergencia uniforme Sot, Oa(dx) para e(x, O) = I00/+0) cuando 
se supone que, para N — «o, 
sup ¡ (x, DHa(dx) -> (), 

. ani, 0) > Y 
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Para descargar la exposición fundamental, la demostración de estos co- 
rolarios de las condiciones (RR) se da en el Suplemento VI. La exposición 
también se puede simplificar de otra manera: introduciendo en las condicio- 
nes (RR) las dos propiedades mencionadas y despreciando el hecho de que 
en tal forma ellas serán “redundantes”. 

En vista de que 


1H, a E (4) 


Fx) fo(x) Sex 
la relación (1) se puede escribir en la forma 
Mol'(x1, 0) = 0, Mol“ (a, 0) = —MoU (1, 0) = —1(6). (2) 


Ya hemos utilizado la primera de estas igualdades. 

Señalemos un corolario más de las condiciones (RR). Estas últimas son 
mucho más fuertes que las condiciones utilizadas en los $$ 21 y 23 y, por 
consiguiente, tienen lugar todas las afirmaciones de los teoremas del $ 23 
acerca de las estimaciones para la distribución sup Z(v/vn), y acerca de 
la conciliabilidad de la e.v.m. 

Lema 1. Si se cumplen las condiciones (RR), tiene lugar la continuidad 
1*(x, 0) “por término medio” desde el punto de vista siguiente: 


Mow¿(x1) = [0é0COuldx) > 0 6) 


para A -—> 0, donde wi¿(x) es el módulo de continuidad de la función 
1”(x, 0) 
wa(x)= sup |/”(x, 6 + u) — 1*(x, 0)|. (4) 
$60,+utO 
14] 
laca 
Demostración. En virtud del teorema de convergencia mayorable, la re- 
lación (3) será el corolario de la continuidad ordinaria, puesto que en este 
caso wái(x) >0 para ct. (x«) valores de x cuando A >0 y, además, 
[wI()| < 2/(x). <a 
Designemos 
L(X,0+ v)-— L'(X, 9) 


AD + 1(0) |]. 


ynlA, 0) = sup 


Lema 2. Supongamos que se cumplen las condiciones (RR), 6n > 0, 
n= 1,2, ... es cualquier sucesión convergente a cero. Entonces, para cual: 
quier 0€89 y para XE Po, 


YnlÓn, 0) SS O, Ynl(Ón, $") es O. 


En estas relaciones, 1(0) se puede sustituir por I(0*) y al contrario. 
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Demostración. Demostremos al principio la primera afirmación. Como 
Mol” (x1, 0) = —1(0), L"(X, 0)/n — —1(0), es suficiente cerciorarse de que 
ca. 


Yn(A) = sup 
[lv] <a 


L'(X, 0 + v)-L1'(X,0) _” L"(X, 0) 
Rv n j 


Pero 


] A a ] ud PR 
yaló) = € sup FILA 84 0) LA 0) 2 xa) = BELO, 


donde wX(x) significa el módulo de continuidad /”“(x, 6), definido en (4). 
Es evidente que para cualquier A > 0 registrado, cuando n son bastante 
grandes, 


A) € ACA. 
Además, según la ley fuerte de los grandes números, 


04(X) > Msi (11) E wé. 


En virtud del lema 1, wv¿ -—> 0 cuando A — 0. De aquí se deduce que 
wi (A) — 0. (5) 
Cs. 


La primera afirmación queda demostrada. De (5) y de la definición de 
la convergencia casi segura se desprende que a la par con (5), 


dir (A) >0 
Qs. 
para toda sucesión de las variables aleatorias y, > 0. Nos queda señalar que 
Cas. 


sup [44% 0 + v)- 1x6) _ L"(% 0) 
lv <8= nu n 


y hacer uso del corolario 23.1. La posibilidad de sustituir 7(6) por 16") 

también se deduce del corolario 23.1 (y de la continuidad de /(0)). <a 
Ahora podemos enunciar las principales afirmaciones acerca del com- 

portamiento asintótico de la relación de verosimilitud Z(t). Designemos 


Y(u) = In Z(u/vVn) = L(X, 0 + u/Vn) - L(X, 0) 


y convengamos en designar por £»(X, 0) (a veces con índices adicionales) 
las diferentes sucesiones de variables aleatorias convergentes casi segura- 
mente a cero respecto a Po. 


< We, 6 (A) (6) 
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Teorema 1. Supongamos que se cumplen las condiciones (RR), 0, > 0 
es una sucesión arbitraria que converge hacia el cero. Entonces para 
|u/ va] < Ón 

2 
Y(u) = úén — = 1O0X1 + en(X, 0, u), (7) 
donde 
fe X, 0, 0) S Enf A, 0) > 0, En = L'(X, 0)/Vn € Po,10)- 
es 


El punto u* = (Ó" — 6) vn, en el que Y(u) alcanza el valor máximo, posee 
la propiedad 
e En 


2 
2Y(u") = 2 In Z(Ó" - 9) = 77 4 + EX, 0) € H. (9) 


A la par con (7) es válida la representación 
12 
Y(u) = Y(u”) - LAA KOX1 + en(X, 9, 4), (10) 


lex(X, 0, u)| < En(X, 0). 
En todas las afirmaciones dadas se puede sustituir 1(9) por 1(0"). 
En este teorema, al igual que en el lema 2, se supone que 0 + uvVn€ 9. 


Esta relación será cumplida automáticamente para n bastante grandes si 
Ó es el punto interior de 8. 

Observación. 1. Es importante notar que en (7) las variables aleatorias 
ta y ex(X, 0) no dependen de n. Por eso la primera afirmación del teorema 
puede ser escrita en la forma 


2 
Y(u) - uE, + — 10) 
2 
sup | —————_ | +0. 
hu] < 8, VA Y e 
Si ón es tal que 
> E < 00, (11) 
del teorema 23.2 se deduce que en la región adicional |u| > 5, vVn, 


sup Y(u) > — oo, 
ko] > 8. Va cs 


Demostración del teorema 1. Del lema 2 |u| < dx obtenemos 
L(X, 0 + v) = L'(X, 9) - nul(0)A + E«(X, 0, uv), 
JEn(X, 0, vil < en(X, 0). 
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Integrando esta igualdad respecto a v dentro de los límites de O a u/vn, 
obtendremos 


L(X, 0 + u/vn) - L(X, 0) = uL'(X, 0) vn — te NOM + en(X, 0, 0), 


[en(X, 0, u)| < En(X, 0). (12) 


Esto es, evidentemente, el desarrollo en serie de Taylor, donde £ “(X, 0)/n 
ha sido sustituida por 1/(0), y el término residual admite una estimación 
uniforme. En vista de que 


1 , ] , 
En LUX, 8) =— 16%, 0) 
es la suma de las variables independientes igualmente distribuidas, que tie- 
nen por media O y por varianza /(0) (véase (2)), según el teorema central 
del límite £ € Lo, re). La representación (7) queda demostrada. Para demo- 
strar (8) volvamos al lema (2). Este significa que existe un conjunto A, 
Pr(A) = 1 tal que para Xo.E A, n—>0, 


sup L'(X, 0 +v)- L'(X, 0) 


074 Av + 1(0)| = 0. (13) 


Además, en virtud del corolario 23.1 existen la sucesión un —> oo, 
un/Vn =s yn >0 (un debe satisfacer (23.9)) y el conjunto B, P+(B) = 1 tal 
que para Xo.E€B,n> vw, 


v* =(Ó" — 8) = o(ya). (14) 

Como la sucesión 6,—>0 en (13) es arbitraria, para X.€ANB, 
PXAANB) = 1, en virtud de (14) la relación (13) resultará justa en el punto 
v = vw”. Recordando que L'(X, 0 + v*) = L'(X, 6") = 0, obtenemos para 
XE¿ANB, 
L*(X, 0) 
n(0" — 0) 
Esto significa que En — F(0)u” = u“en(X, 9), y demuestra (8). 

Haciendo uso de los mismos argumentos, se puede sustituir u = 


=u' = v'va = (Ó* — O) vn = as (1 + £x(X, 0)) en (12). Esto da 
2 


10) - >0. 


Am En 
LX, 9) —- L(X, 0) = HOY (1 + ex(X, 0) 
y demuestra la primera parte de la relación (9). La convergencia de ¿2/1(0) 
hacia la distribución x? con un grado de libertad se deduce de los teoremas 
de continuidad, ya que ¿,/41(0) € do.1- 
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La relación (10) se demuestra de un modo completamente análogo a 
(7) si se hace uso de la segunda afirmación del lema 2 y, basándose “en 
ésta, se halla la representación para L(X, 0 + uYn) - L(X, 6%). «< 


Observación 2. En el lenguaje de las distribuciones, la primera afirmación del teorema 
1 puede ser enunciada de la manera siguiente: 
Y(u) e use u* 19)" (15) 


Anteriormente hemos señalado que la segunda condición (RR) (acerca de la existencia de 
1” (x, 0)) no siempre es esencial para las afirmaciones que han de ser demostradas. El carácter 
no esencial de esta condición para la convergencia (15) se puede mostrar mediante los razona- 
mientos siguientes La magnitud 


Yuw=£Le(xo+ )-Lx 0. 56úx. 0 E.) - | 
(u) ( ++) (Xx, 0) >| a Kxs, 0) 


es la suma de las magnitudes independientes Igualmente distribuidas, Por eso, según el teorema 
central del límite para el esquema de series (los sumandos dependen de a y omitimos la verifi- 
cación de las condiciones de Lindeberg) 

Y(u) € Pou). Xu)? 
donde 


alu) = lím anMel/(x,, 0 + u/vn) — ¿Qu, 0)] = 


= lm Mo tn EOTADA == m QrP..a Po) 
bal o(x1) a-0 y 


= —u 1(0)/2 


(véanse el teorema 21.2 y la observación 21,1). Luego 
Au) = lím AMoll(x:, 0 + u/Va) — xs, 0)? > 
A. 


2 
= ul lm | [112100 2] FAA = 


a—-0 á 


= y | (U(x, OS On(dx) = u* KO). 


Si al calcular ax(1) y ou) se utilizó el desarrolo 1(x, 6 + u/vVn) en serie con dos derivadas, 
obtendriamos el mismo resultado. Sin embargo, nos hemos cerciorado de que no es obligatorio 
hacer esto. 


Concluyendo este párrafo, del teorema 1] obtendremos otro corolario 
útil que necesitaremos en adelante y que se refiere al comportamiento de 
las integrales de la relación de verosimilitud. 


Teorema 2. Supongamos que se cumplen las condiciones (RR), la fun- 
ción w(t) satisface la condición 


[w(0| £ ceair?, c<o, a = 8/16 
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(g > 0 está definido en el $ 21) y la función q(t) es continua en el punto 
t=0 y está limitada. Supongamos, además, que Y es cualquier medida 
en (R, D), tal que fe- alul'/“TKdi) < uo. En este caso, si 0 es un punto inte- 
rior de Y y X€ P,, 


J ws” — 4)q(0 + u/Vn)Z(u/vnMWdu) = 


u -u*) 10) 


LA 
= erro] fut ue E Ji(du) + e,(X, 0]. (16) 


En particular, si ll es la medida de Lebesgue, WWUdu) = du, entonces 


J= on eYdg(ONM w(y) + En(X, 0), 


donde en(X, 0) = 097€ % 1-10 


La afirmación (16) es muy natural, ya que el factor q(9 + u/vn) es “casi 
constante” y la función Z(u/vn) = e*“ se aproxima, con una exactitud 
de hasta el factor constante, según el teorema 1, con una densidad de distri- 
bución normal. 


Demostración, Para simplificar la notación nos limitaremos a examinar 
el caso cuando Ill es la medida de Lebesgue. El paso al caso general no 
presenta ninguna dificultad. 

Estimemos primeramente la parte de la integral (16) en la región ju) > 7. 
Designémosla por J(r). Como f/f HA) < 1, entonces, Suponiendo, 
para abreviar, Z = Z(u*/vn) = eY%, ¿ = 0 + u/vn, obtenemos 


a (OY IO (ION (2) 
ó z(5) 1 ENTRO) * a): 


Por eso, en virtud de la desigualdad de Cauchy — Buniakovski, del teorema 
23.1 y del corolario 23.1, 


Mow(u* — u4)Z 7 *Z(u/vn) < 
< [M,w*(Vn(6* — 19)M0Z'u/ vn? Ss ce ss, 
Como máx q(f) < oo, de aquí y del lema 23.1 hallamos 
MoZ "JH $ ces, 


Haciendo uso de la desigualdad de Chébishev, obtenemos las estimaciones 
del mismo orden también para P4(Z 7” *J(r) > 5). Por eso, si r = rs > 00, 
de modo que 


Ne” “e < oo, (17) 
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entonces, para y 2 fn, 
Z""30) >0. (18) 
Elijamos r, = o(Vn) y examinemos la parte restante de la integral 
VO) = J- J(y) cuando y = 2r,. Según el teorema 1, 
Z"*v(Qr) = 27? | q(0 + u/Yn)w(u” — u)Z(u/vn)du = 
hi| <2ra 
- | (9(0) + entu))w(u? — u) x 


hr] <2z, 
XxX exp [- 5 (u — UY IOKX1 + ex(X, 0, 0] du, 


donde |en(u4)| < €, > 0, [en(X, 0, 4)| € Enf X, 0) > 0 cuando n — eo. Por 
Cs. 
eso, en virtud de (18), es suficiente cerciorarse de la proximidad de las inte- 
grales 
| w(u” - yu) exp f- 5 (u - uYHOKXL + ex(X, 0, 0] du, 


ju] < 27 


os Mw(n) = [ w(u” — u) exp (- zu - 10] a. 


En virtud de (17) y del corolario 23.1 existe un conjunto A, Po(A) = 1 tal, 
que ju*| < rn para Xo € A cuando todos n = n(X.) son bastante grandes. 
Como 1(6) > e, lu — u*? > u?/2 para ju] > 2r,, ju*| < rn, entonces, en el 
conjunto A (véase el lema 23.1), 
| w(u” — u) exp [- 3 (u — WO) du < ces >0. 
jul >2r, 

Por eso nos queda estimar 

| w(u” — u) 


ju|< 2er. 


- ep (- Lu — PO) 


cp - 7 lu = UYIOK1 + en(X, 0, wn] - 


du £ | w(v) 


cap( - 5 v?I(0) x 


- (1 +£,(X, O, v + ] - exp[ - > O) dv. 
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Pero esta integral converge en el conjunto AB hacia el cero, donde 
B= (Xo: En(X, 0) — 0), Po(B) = 1. Esto resulta de la convergencia a cero 
para cada uv de la función subintegral y del hecho de que ésta es mayorada 
por la función sometida a integración. < 


$ 25. Propiedades de las estimaciones de verosimilitud máxima. 
Normalidad asintótica. Optimación asintótica 


Supongamos que X € Po, y 0" es la ev.m. Los resultados de los párrafos 
precedentes permiten describir por completo las propiedades asintóticas de 
6” cuando el volumen » de la muestra crece indefinidamente. Además, en 
este párrafo hemos establecido uno de los resultados centrales del capítulo 
presente, que consiste en que la ev.m, al cumplirse las condiciones (RR), 
posee todas las propiedades posibles de optimación asintótica, que hemos 
examinado anteriormente, o sea, la estimación asintóticamente eficiente es, 
a la vez, asintóticamente bayesiana (para toda distribución a priori que 
tiene densidad) y asintóticamente minimax. 

En este párrafo siempre supondremos, sin especificarlo complementa- 
riamente, que se cumplen las condiciones (RR). 

1. Normalidad asintótica de la ev.m. 


Teorema 1. La e.v.m. Ó" es una estimación asintóticamente normal, con 
la particularidad de que la convergencia 


u* = (6" => 6) vn e Lo, r 6) (1) 


tiene lugar junto con los momentos de cualquier orden, o sea, junto con 
(1), para cualquier k > 0, se cumple 


Mo(u)* Mx", net, roy (2) 


Además, para cualquier función continua w(t) tal, que |w(t)| < es1/6 (véa- 
se (23.4)), 


Mow(u*) > Mw(n), 9 € Y, ¡- 50) (3) 
Demostración. En el teorema 24.1 hemos establecido que 
e o ta 
u" = (Ó" — 8IVA = gy (1 + en(X, 6), (4) 


donde ex(X, 0) >0, En = L'(X, 0)/Vn € Do,1(e). Esto demuestra (1). Las 


relaciones (2) y (3) se obtienen de (1) y del teorema de continuidad para 
los momentos (véase el $ 1.5), puesto que en virtud del corolario 23.2, 


ey? 
M.w%u*) < Mo exp (7 <c<o. <q 
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Observación 1. De (1) y (2) se deduce que $” pertenece a la clase de 
estimaciones Ks,2, en la que la convergencia de (Ó” — 0)Vn € %, ¿29 tiene 
lugar junto con la convergencia de Me(0” — 0Y => 0*(0) de los primeros mo- 
mentos, Como ya hemos señalado en el $ 8, en esta clase, el enfoque asintó- 
tico de la comparación de las estimaciones coincide, de hecho, con el 
enfoque estándar. 

Observación 2. La relación (4) también permite describir exactamente 
las “desviaciones máximas” de (Ó* — 6)Vn cuando n > oo. Pues, se sabe 
(véanse [61] y [84)]) que las sumas normalizadas E, de las magnitudes inde- 
pendientes igualmente distribuidas, que tienen por media el cero y por va- 
rianza /(0), satisfacen la ley de logaritmo reiterado, en virtud de la cual 


El ) 
P(1 =1) =1 
(tm sup V/21(6) ln ln » 


En vista de que en (4) lím sup EXA, 0) =0 c.s., Obtenemos que 
n— 


$" — OVnI(O) _ ) a 
Po (um sup AAA 1 1. 


Determinemos ahora, en calidad de corolarios del teorema 2, algunas 
propiedades de la e.v.m. relacionadas con la optimación asintótica. 

2. Eficacia asintótica. En el $ 16 hemos introducido el estudio de la 
clase £o de estimaciones asintóticamente no desplazadas, o sea, de estima- 
ciones 0* cuyo desplazamiento b(0) = Ms0” — 6 posee las propiedades 


b(6) = o(1/vYn, b'(0) = o(1). (5) 


En el $ 20 hemos expuesto las ideas según las cuales, en búsqueda de las 
estimaciones asintóticamente eficientes “en total”, es posible limitarse a la 
clase Ko. 

Establezcamos ahora el hecho siguiente. 

Corolario 1. 0” € Ko. 

Demostración. La primera de las relaciones (5) resulta de (2) cuando 
Kk <= 1. Para demostrar la segunda señalemos que (véase el $5 16) 


1 +b'(0) = MeÉ'L'(X, 0) = Mo(Ó* — O)L'(X, 0) = 


2 
= Ma((Ó" — 0) Yn En) = Mo e (1 + entX, 0)), 


EnlX, 9) SS O. 


Si aquí es cierto el teorema de continuidad para los momentos, entonces 
obtenemos la relación requerida 1 +5b'(0) > 1 o, que es lo mismo, 
b'(0) > 0. Para establecer la validez de este teorema en nuestro caso, es 
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suficiente cerciorarse (véase el $ 1.5) de que 
Mol(Ó* — 0) Va En? <c< oo, (6) 
donde c no depende de n. Hagamos uso de la desigualdad de Hólder 


MiEn|” < (M]E?)2Min[%)'/%, p>0, q>0, > +5 =1 


para r = 3/2, p = 4, q = 4/3. Entonces obtenemos, para el primer miem- 
bro de (6), la estimación (Me[(Ó* — 6)Yn15)'“*(MéE2)”*, que, en virtud de 
(2), nos da la desigualdad deseada. «< 

El corolario siguiente, debido a su importancia, lo enunciaremos en for- 
ma de teorema. 


Teorema 2. La e.v.m. Ó* es una estimación asintóticamente R-eficiente. 
Además, Ó' es asintóticamente eficiente en Ro. 


Demostración. El hecho de que Ó” es una estimación asintóticamente 
R-eficiente se desprende directamente de la definición 16.1 y del hecho de 
que 


«or 1404) 
Mo(Ó" — 0) O" 

La eficacia asintótica en Ro se deduce del teorema 16.3. < 

El teorema 2, junto con las observaciones referentes al teorema 16.3, 
significa que, al cumplirse las condiciones (RR), cualquier estimación asin- 
tóticamente eficiente en Ko será una estimación asintóticamente R-eficiente, 

Anotemos que la contracción del conjunto de las estimaciones examina- 
das, hasta Ko, no es la única contracción, ni mucho menos, con la que 
Ó6* se vuelve asintóticamente eficiente, 

Indiquemos otra contracción relacionada en este caso con la propiedad 
de 0 de ser mediana asintótica de la distribución de las estimaciones asintó- 
ticamente normales, o sea, con la propiedad 


Po(Ó* > 0) > 1/2 (7) 


cuando n => 00. 

Designemos por £” la clase de estimaciones 6” para las cuales (7) se 
cumple uniformemente respecto a 0. La clase X? podría llamarse clase de 
estimaciones asintdticamente centrales. 


Teorema 3. La ev.m. 9" € K* es precisamente una estimación asintótica- 
mente eficiente en la clase K? 

Aplazaremos la demostración de este teorema hasta el $ 3.3. 

3. Carácter asintóticamente bayesiano de la ev.m. En este apartado, por 
doquier se suponga la existencia de la densidad q(1) de la distribución a 
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priori Q respecto a la medida de Lebesgue en €, supondremos también, 
sin especificarlo complementariamente, que la densidad es integrable según 
Riemann, así que se satisfarán las condiciones del teorema 20.5. 


Teorema 4. La e.v.m. Ú' es una estimación asintóticamente R-bayestana. 
SI Q es una distribución arbitraria a priori que tiene una densidad q(t) 
respecto a la medida de Lebesgue, entonces Ó* también es una estimación 
asintóticamente bayesiana que corresponde a la distribución Q. 


Demostración. El carácter asintóticamente R-bayesiano de la e.v.m. se 
deduce de las relaciones 


lim MIVn(Ó" — 60% = lim MMolvn(0" — 6)? = 
= M lím Mo[Vn(Ó" — 0)? = MI" 49) = J. 


Aquí el paso límite bajo el signo de la esperanza matemática es legítimo 
según el teorema de la convergencia mayorada, ya que, en virtud de 23.2, 
el valor de Me[Vn(Ó6* — 6)1? está uniformemente limitado por la constante 
que no depende de n ni de 6. 

El carácter asintóticamente bayesiano se deduce del corolario 20.1. «< 

De las observaciones referentes al corolario 20.1 y del teorema 4 resulta 
que cualquier estimación asintóticamente bayesiana es asintóticamente R- 
bayesiana. 

La afirmación del teorema 4 puede ser amplificada. Resulta que la 
e.v.m. y la estimación bayesiana “casi” coinciden para cualquier densidad a 
priori q. 

Teorema 5. 


Mn(0" - 09) >0,  (09- Ó')vn>0, 


donde 04 es la estimación bayesiana que corresponde a la distribución Q, 
y la convergencia en probabilidad se entiende respecto a la distribución 
compatible de X y 0 en 2” x 0. 


El teorema $ se desprende directamente del corolario 20.2. Su afirma- 
ción es equivalente a que para casi todos f 


M¿n(Ó" — 09 — O. 
Es posible la amplificación ulterior de la afirmación enunciada. 


Teorema 6. Sea Ó un punto interior arbitrario O, X € Po. Sea, luego, 
q(t) una densidad arbitraria, continua y positiva dentro de O, de la distri- 
bución a priori. Entonces Yn(Ó* — 06) = 0. 
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La demostración de deduce del teorema 2 del párrafo precendente. En 
[ (e -— ÓDaOL(A) dl 
[NIC 


t = 0 + u/vn y dividiendo por f+o(X) el numerador y denominador en esta 
expresión, obtenemos 


efecto, 09-06" = Sustituyendo las variables 


o_o _ SU Ya + u/Vn)Z(u/Vn)du 
| q + u/Vn)Z(u/Vnydu 


Ahora es necesario hacer uso del teorema 24.2 para w(1) = t y w(f) = 1. 
Como en el primer caso Mw(y) = My = O, entonces obtenemos 


00-Ó" = ex X, 0)/Vn,  En(X, 9)>0 <a 


4. Carácter asintóticamente minimax de la e.v.m. 


Teorema 7. La ev.m. es una estimación asintóticamente minimax. 

Este teorema se deduce directamente del corolario 20.3 y de la afirma- 
ción siguiente. 

Lema 1. 


lím sup Mon(Ó* — 0) = sup 77 (0), 


no Er der 
donde Y es cualquier trazado dentro de O. 


El lema 1 se desprende de la convergencia (2) uniforme en 0. La unifor- 
midad será demostrada en el $ 29 (véase el apartado 29.3). 


$ 26* Cálculo aproximado de las estimaciones 
de verosimilitud máxima 


Hemos visto que en los problemas de estimación de los parámetros revisten 
el máximo interés las estimaciones eficientes y asintóticamente eficientes 
y, en particular, las e.v.m. Surge la cuestión acerca de la determinación prác- 
tica de tales estimaciones. En los problemas reales, la búsqueda del valor 
exacto de la e.v.m. 6” puede presentar grandes dificultades. Esto se refiere, 
sobre todo, a las distribuciones que no tienen estadísticas suficientes relati- 
vamente sencillas. 

Por otro lado, la determinación de cualquier estimación asintóticamente 
normal 0” no provoca, por regla general, dificultades. 

Aquí mostraremos un método de construcción de la estimación 0, asin- 
tóticamente equivalente a la ev.m. 6” (y, por consiguiente, a la asintótica- 
mente eficiente), el cual se basa en el método de Newton para cálculos 
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aproximados y en la utilización de la estimación asintóticamente normal 
6”. Pongamos 

U(O =1t- LEX, DU UA Ny), 1680, 

ULO =1++ L(X, MIO) ?, (€ 0. 

Teorema 1. Supongamos que se cumplen las condiciones (RR), X € Po 
y que 0” es cualquier estimación asintóticamente normal 
(0” — O)Vn € Y, Ap) 


En este caso la estimación 0; = U(0*) (o bien 0] = UL(0”)) será asintótica- 
mente equivalente a Ú", o sea, 


(0: — 6 rn 7.0 


La demostración del teorema se apoyará en el lema siguiente. 

Lema 1. Supongamos que se cumplen las condiciones (RR), X € Po, 
y que $n > O es una sucesión arbitraria convergente a cero. En este caso, 
si 0, es tal que |0n — 0| £ 6, 


U(9,) == Ó" = (0% 7 Ó*)Enf8n, O, A), 


donde E, == máx |en(Gn, 0, X)| — 0. 
056. 01€ 5. Po 

Esa misma afirmación será válida si en vez de U utilizamos la función 
U,. 

Con otras palabras, si se hace uso del método de aproximaciones sucesi- 
vas hacia Ó” y se pone 05 = 0, 6; = U(05) (o bien 0 = UL (65)), entonces 
0 —- Ó* = 0(03 — 6”), así que la aproximación 6 es mucho mejor que 0%. 

Demostración. De las investigaciones de $ 24 y de la continuidad de 
L” se deduce (véase, por ejemplo, el lema 24.1) que 


L'(X, 0n) = (On — Ú'YL“(X, Ó), L"(X, Ó) e n(1(0) + ex(0a, 0, X)), 
donde Ú€ [6., 0"], máx es(0n, 9, X) — O para cualquier sucesión 8, > 
0.10. -0< 8, Ps 
> 0. Luego, 
L*(X, 0n) = n(1(0) + es ), 
(1(0) + es) + 87)7? =1 + €n, 
donde £€x, €, poseen la misma propiedad que e;. Por consiguiente, 
U(0n) - 6” =0- — 0" - LUX, OLX, 01)! = 
= 01 — 6" — (0, — Al + En) = (0, — Ó“)en. 
La demostración para la función U, se realiza exactamente igual. < 
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Demostración del teorema 1. Elijamos cualquier d¿,—>0 tal, que 
$nVn — 00, y representemos (0; — Ó*)vVn en la forma 


(U(0*) — Ó')Vn = Vn(0* — Ó)en(0*, 0, Xiir-0<s) + Fano 


donde r, >* O únicamente en el conjunto B, = ([X: |6” — 6] > 5x) y, en vir- 
tud del lema 1, 


En = Máx 6n(f, 0, X) >0. 
A Po 


Como, además, P+(B,) — O, de aquí se deduce que 
197 — Ó*ivn < valo" — 0jz, + Vnjó* — 0|En + ra 70 <a 


El teorema 1 muestra que el método de aproximaciones sucesivas, par- 
tiendo de cualquier estimación asintóticamente normal, nos lleva en 1 paso 
al punto 0”, con una exactitud de hasta los valores de o(1/vn). 


Si se exige la existencia de las terceras derivadas continuas /” (x, 0), entonces también 
se puede comenzar de puntos más lejos, que distan de 6, digamos, a la magnitud de o(n 7 '/*). 
En este caso, al igual que en las condiciones del teorema 1, en 1 paso resultaremos en el 
o(1/Va)entorno del punto Ú”, En efecto, 


2 
LUX, y = (e - ÉL" (X, 6) + RUE dl 


L”"(X, 0”) = 


> (1- ÍÚ)MLAX, 0 + 30 - FYL(X, 0%), 


donde 9' y 9” están comprendidos entre 1 y 0”. Por eso 
U(0n) —- $" =0. - 6 —- LUX, OLX, 0.) 7? = 


= 3 (6n — O YU) + €), VM(U(O») — 6) 70 
si 8, — 6] = o(n Y*). a 


Ejemplo 1. Clasificación de las partículas. Examinemos una fuente que 
emite partículas de dos tipos: con probabilidad p, partículas del tipo A; 
y con probabilidad 1, p partículas del tipo B. La energía de las partículas 
es aleatoria y tiene una densidad de f¡(x) para las partículas del tipo A, 
y de f2(x) para las del tipo B. Las funciones f(x) son conocidas. Han sido 
registradas n partículas con energías X1, ..., Xn. ¿A qué es igual la probabili- 
dad p? Aquí la función de verosimilitud es igual a 


O = TÍ it) + (4 - pat, 


im) 
así que 


_ SY 6 - 46 
LA 2 PAC) + U= DAD 0) 


16—8030 
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Vemos que la búsqueda de la ev.m. f” conduce a la ecuación L” = 0 de 
grado n — 1 respecto a p, la cual se resuelve, para grandes nr, con mucha 
dificultad. Hagamos uso del teorema 1. Para eso necesitamos cualquier esti- 


mación asintóticamente normal p*. Supongamos que far - RYdx< o, 
Xx 


donde Fi(x) = í fi(1)dt, y examinemos el enfoque natural siguiente. Defí- 


namos p* como valor que minimiza 
[ (E) — Fo) dx, Fix) = pFI(O + (1 — p)rG0. (2) 
Igualando a cero la derivada de (2), obtenemos [(Fh — FXMFi — Fajdx =0, 
pu ¡(En — FANF, — FaYdx 
í (E, — Fr) dx 
Es fácil notar que Mp” = p y que 


(Fa — F)Vn(Fi - Fajax 


(p” — pin = (3) 
añ - FaYdx 


De los resultados de los $$ 1.6—1.8 se deduce que p” es una estimación 
asintóticamente normal y que la distribución límite (3) coincide con la 


distribución 
[FONDA = Fa)dx 


16 — FaYdx 
Por lo tanto, en virtud del teorema 1 la estimación 
pi=p"- LUX, PIU, pY?, 
donde £' está definida en (1), 
d (100) — (DY 
L* = -— A O 
2 fix) + (1 — pay 


será asintóticamente equivalente a la e.v.m. $6”. El coeficiente de dispersión 
pi será determinado por la información 


Yi) - £00Y 
AR 
y será menor que el cocficiente de dispersión p”. 


Ejemplo 2. Le proponemos al lector que halle, de ese mismo modo, 
la aproximación para la e.v.m. del parámetro « de la distribución de Cauchy 
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K.,1 que tiene una densidad de 
_ 1 
Ltd = EN 


En calidad de estimación asintóticamente normal “previa” se puede tomar 
la mediana muestral f* (véase el $8 2 Ó los $$ 1.3 y 1.8 Aquí no se puede 
tomar la estimación a” = x, ya que Maa” no existe). La estimación 


o => E a LUX, OU Xx, rr", 
dond “(X, a Xx — Q 
nde L(X, e) =-2 », > 
»” rn 1] - Gu =_ 0)? 
Lx 0 =2 2, AA 
será asintóticamente equivalente a la ev.m. «*. Como 


CIAT _4 e 1 
a ler 


los coeficientes de dispersión f” y «1 serán iguales respectivamente (véase 
edg52 a 


1 _* -1/2 a T 
ETICA ] (a) = y2, 3 > V2. 

Ejemplo 3. La sangre de cada persona pertenece a uno de los cuatro 
grupos que designamos por O (cero), A, B y AB. El heredamiento de los 
grupos de sangre es controlado por tres genes: A, B y 0, además, el gene 
0 es “deprimido”. por los genes A y B. Por eso, sip, q yr=1-“-p- 
— q designan las probabilidades de que aparezcan los genes A, B y 0, las 
probabilidades de aparición de los grupos de sangre corresponderán a las 
siguientes magnitudes: 


Tabla 1 Tabla 2 
¿ 


Pp pp + 2r) lag + 2r)|2pg 
A E 2r | 2r -2 |2% 
do” -2r| -2p 2r 2p 


16* 


244 CAP. 2. TEORÍA DE ESTIMACIÓN DB PARÁMETROS 


Sean v1, va, Y3, va las frecuencias de aparición de los grupos de sangre 
respectivos en la población sujeta a investigación, con un total de nr perso- 
nas. ¿Cómo hallar la ev.m. par p y q? En nuestro caso las probabilidades 
pi(0), 9 = (p, q) de aparición del ¡-ésimo grupo de sangre y sus derivadas 
parciales respecto a p y q se muestran en la tabla 2. 

por eso para la función logarítmica de verosimilitud L(X, 0) = 


= 2 », ln p¡(0) obtenemos 


sel 


ÓL Pi 0Pi a 2p1 2rv pas 2v3 Ys 
A RAI A 
gL E vi Op; eo 2n _ 2 5: 2rv3 ZN 

dq pi %q r p+2r — q(q+2r) q 


Igualando a cero estas derivadas, llegaremos al sistema de dos ecuaciones 
para 0” de cuarto orden. La resolución de tal sistema presenta dificultades 
técnicas. Por eso es más simple hacer uso del teorema 1. Para esto notemos 
que son válidas las igualdades 


per, p+p=(p9+1rY, ps +ps= (q + rY. (5) 


Las estimaciones eficientes para p, son iguales a p; = v¡/n. Sustituyendo 
en (5) estas estimaciones y resolviendo las ecuaciones obtenidas, tenemos 


IN 


Como pi es la estimación asintóticamente normal de p, (o sea, 
(wi — pivVn € Lo pu -p)), en virtud de los teoremas del $ 1.5, p” y q” tam- 
bién serán las estimaciones asintóticamente normales para p y Q. 

Para valerse del teorema 1 sólo queda calcular la matriz (L“(X, 0*))”? 
o matriz (nI(0*))"', 0* = (p*, q”). 

Citemos el ejemplo de una muestra real X obtenida como resultado del 
examen de 1 = 353 personas. 

La distribución de la gente por grupos de sangre se da en la tabla 3. 


Tubla 3 Tabla 3A 


De esta tabla se deduce p” = 0,241, q” = 0,167, r* = 1 — p* — q* = 0,592, 
Con ayuda de la tabla 2, para los elementos de la matriz /(0), cuando 
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9 = 0”; obtenemos 


7 0) y' lla. — M4 24 9970, 
pi E 


. pp +2r) - q+2r 
HE Aya y ++ OS + 2 = 13,761, 
300) 20 o =* + dar +?" 2585. 
De aquí hallamos |7(8*) = 130,512. 
10% = |_0020 one 
aL . 


De las fórmulas para y =— > (véase (4)) obtenemos 


dp 
L'(0", Xx) = rn 34,161), (6) 


así que para la segunda aproximación de 0 tenemos 
0 =0" +10", X)1" 6") = (0,246, 0,173). (7 


Esto nos da, para completar la tabla 3, las estimaciones expuestas en la 
tabla 3A. 

La aplicación de una iteración más, en forma de (7), ya no modifica 
la estimación 0; (dentro de los límites de la exactitud que utilizamos), ya que 


L'“(0i, X) = (—0,076, —0,167) 


(compárese con (6)), así que la tercera aproximación para 0” y todas las 
aproximaciones siguientes coinciderán con 9. 


$ 27* Propiedades de las estimaciones de verosimilitud máxima al faltar 
las condiciones de regularidad. Conciliabilidad 


Este párrafo, al igual que el $ 22, no entra en el curso principal de exposi- 
ción y está dedicado al estudio de un caso irregular. Aquí nos Jimitaremos 
a demostrar la conciliabilidad fuerte de la e.v.m. en condiciones muy débiles 
respecto a f.(x), las cuales no suponen el cumplimiento de las condiciones 
(RR) o (R). Un estudio más detallado de las propiedades de la e.v.m. y 
de la relación de verosimilitud en el caso irregular véase en [48]. 

En todo el párrafo supondremos que se cumplen las condiciones (A,), 
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(A) y (Ao) y designaremos la distancia de Kuliback-Leibler q1(Po, P,) por 


fu(x) 
l : dx). 
00, 03 | in Fe Solontax) 
Sabemos que (6, f) > 0 para £ »x 8 si se cumple la condición (40). 
Evidentemente, la condición (Ao) es necesaria para la conciliabilidad 
de la ev.m., o sea, para la convergencia de 6* > 6. Si, por ejemplo, 


Q(0, to) = O cuando to 0, entonces los puntos 0 y to serán simplemente 
indistinguibles, las distribuciones Pe y P,, coinciderán y cualquiera que 
sea el lugar de convergencia de la ev.m. 6”, ésta no podrá ser conciliable 
si XEP+.OSi XEP,. 

La siguiente variante de la condición (40) se puede llamar uniforme 
(0 ha sido registrado): 
(Ao) Para cualquier $ = s(6) > O 

inf 0(0,50>e 
1: ts 

con cierto e > 0. 

Es evidente que (40) será el corolario de (40), (A.) y de la continuidad 
de (6, 1). Por consiguiente, en estas condiciones, la condición (Ao) también 
será necesaria. 


Examinemos ahora la siguiente amplificación de la condición (40). De- 
signemos 


JAUX) = SUP e + u(x). 
pica 
(48). Para cualquier 5 > 0 existe A = A(5) > 0 tal, que para todos t, 
t — 0| > ó, 
Sex) 
| In 0) - fo(x)u(dx) < —e (1) 


con cierto e > 0. 
Esta condición resulta suficiente para la conciliabilidad fuerte de la 
ev.m. La misma es parecida a la condición (Ao) y en este sentido se aserneja 
a la condición necesaria. Una sola condición (Ao) no es suficiente para 
la conciliabilidad de la e.v.m. (véase la observación 1). 


Teorema 1. Si se cumple la condición (A?), entonces la ev.m. Ú* es fuer- 
temente conciliable. 


Demostración. La ev.m. Ú* es el punto f en el que se alcanza el máximo 
de la función y(t, 0, Pa), donde 


a, Fo) 
YO, £, P) = | ln E pao, 
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Como v(0, Ó*, P5) > Y(0, O, Pr) = O, para demostrar el teorema es suficien- 
te convencerse de que con P+-probabilidad igual a 1, 


lím sup sup y(0, ft, Pr) < — € 
hc ll -6138 


con cierto e > 0, (Esto precisamente significará que para c.t. Xo E Po, a 
partir de cierto n = n(X.) < «o, se cumple ¡Ó* — 6| < 5). Supongamos que 
se ha registrado $ y que A satisface la condición (1). Recubramos el conjunto 
ON[O— 5, 6+38] com segmentos Axr= (ft: | — fx <A], k= 
s ], ..., N< o, donde fx € O, fx [9 — 5, 0 + 6]. En este caso, según la 
ley fuerte de los grandes números, 


sup y(0, t, Pr) < máx sup Y, t, Pr) € 
Y'*-A38 


peo E Sau) ee 
< méx 13 sup in Enya máx Mo In Fa) < —-E. < 


Observación 1. Como ya hemos señalado, una sola condición (40) no 
es suficiente para la conciliabilidad de 6”. Para convencerse de esto exami- 
nemos el ejemplo siguiente. Sea O = [0, 1], Po = Us, 1 +04 cuando 
0< 9 < 1/2 y cuando 0 = 1. Cuando 1 > 0 > 1/2, la distribución Po, tiene 
una densidad de fo(x) = 1/0 cuando 1 -— 6 <x<_l. Supongamos ahora 
que Y E Po = Uo,1. En este caso la condición (Ao) se cumple, ya que 
0(0, 1) = — os cuando t x O. Al mismo tiempo es fácil ver que f(X) > 1 
cuando 1€ (1 — Xq, 1) y que Ó” = 1 — xa) => 1, 


Las condiciones (Aó) pueden ser representadas de manera equivalente 
en una forma algo distinta. Designemos f(x) = lím sup f(x). 
u-.f 


Teorema 2. La condición (A$) es equivalente al cumplimiento simultá- 
neo de las dos condiciones siguientes 
(46). Para todos t » 6 
E in 4) 
ION 


(Y). Para todos t y cierro A>0 


F?(X) 
| ln FO fold u(dx) < 0. 


La condición (J), al igual que (AGS), (46), significa la integrabilidad de 
las partes positivas de las funciones subintegrales. Tales funciones es natural 
lamarlas integrables superiormente. 


fold u(dx) < 0. 
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En virtud de (4.), la condición (J) es, de hecho, equivalente a la limita- 
ción superior de la integral 


| In an o folxdJu(dx) < eo, (2) 


donde f(x) = sup f(x. 


Demostración del teorema 2, El hecho de que de (4$) resulte (46) y 
(J) es evidente. Ahora supongamos que se cumplen (48) y (J). Si admiti- 
mos que ((4$) no tiene lugar, existirán sucesiones tk —>1€ 0, Ax — 0, 
Ex > 0 tales, que 


| in A folx)u(dx) > —Ex. 


Aquí la función subintegral es mayorada, en virtud de la condición (J), 
por la función superiormente integrable, por eso, en virtud del lema de 
Fatou, 


lím sup 


k- 00 


Jo) Se) 
| in 70) FfoOy(dx) € ¡ In TD felxDuídx) < 0. 
Hemos obtenido la contradicción que demuestra el teorema, < 

Ahora expondremos unas condiciones bastante más simples, que de- 
muestran el cumplimiento de (48) y (J) y, por lo tanto, la conciliabilidad 
fuerte de la e.v.m. 

Definición 1. Diremos que /.(x) pertenece a la clase Do, si para cada 
(€ O existe un conjunto C,€ B-, Py(Cr) = 1 en el que f,(x) es continua 
respecto a t: f(x) > f(x) cuando tr => 1, x€C,. 

Además de las f(x) continuas (respecto a £) en el conjunto C, PA(C) = 1 
independiente de £, a la clase Do también pertenecen, por supuesto, Otras 
funciones, tales, por ejemplo, para las cuales f(x) en el plano (f, x) tiene 
líneas de discontinuidad aisladas y desprovistas de partes paralelas al eje 
Xx. Así será, en particular, si f.(x), como función de x, tiene discontinuidades 
aisladas en los puntos xi”, xf”, ..., que dependen continuamente de ?. 


Teorema 3. Si f:(x) € Do y se cumple (J), entonces también se cumple 
la condición (A$) y, por lo tanto, la ev.m. Ú* es fuertemente conciliable. 


Demostración. Si f,(x) € Do, entonces f2(x) = f(x) cuando x € C; y, por 
lo tanto, 


Se(xdJuldx) = —Q(0, 1)<0. < 


df 27. PROPIEDADES DE LAS EV.M. 249 
Corolario 1. Si f(x) € Dy está limitada, y la integral 
[ fotos) In folou(dx) (3) 


es finita, la e.v.m. es fuertemente conciliable. 

La afirmación del corolario 1 se deduce directamente del teorema 3, 
ya que el carácter limitado de /.(x) y la finitud de la integral (3) conducen 
a (J). 

Corolario 2. Si 


Pa) = f sup LV +u(x) — Jilx)lulaoo) — O (4) 


cuando A —0, la e.v.m. es fuertemente conciliable. 

Demostración. Hagamos uso del teorema 3. La pertenencia de f(x) € Do 
es evidente, ya que (4) puede cumplirse tan sólo en el caso en que 
fesu(x) > fe(x) cuando u > 0 para ct. (a] valores de x. 

Luego, 


[S200u(dx) < p(A) + | file)u(dx) = pla) + 1, 
y la condición (4) también significa la integrabilidad de f*(x). Como 


RO) SECO : 
in AO $ TA 1, de aquí obtenemos que la integral en las condi- 


ciones (Y) no supera 
[SP G)u(dx) —- 1 < p(8). < 
En vez de (4) podríamos exigir la convergencia a cero de la magnitud 


P(6) = $ sup (Vf+u(%) — VACOYP ula), 


ya que p(A) se puede estimar con ayuda de ¿,(A) utilizando la desigualdad 
v(a) < | sup [Vfe+ 00) — JO! sup (VÍ +00 + VADO (ula) < 
2/2 
< ol70)| [ 309 FO — 17D + 2 Fan) |< 
<p M41(4) + 4117. 
Corolario 3. Si f(x) es derivable respecto a t para c.t. [u) valores de x, y 


[1 £700|u(dx) < e < o, (5) 


entonces la ey.m. 0” es fuertemente conciliable. La condición (5) siempre 
se cumple si la información de Fisher I(t) está limitada. 
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Aquí hemos llegado al mismo resultado que podríamos obtener del teo- 
rema 23.2. El método de demostración de este último (véanse los $$ 21, 
23) muestra que el carácter limitado de 7(t) o (5) no son esenciales para 
la afirmación del corolario 3 si la distancia de Hellinger py(Po, Po + a) está 
uniformemente separada del cero cuando |A] > 5 > 0. 

Demostración. La pertenencia de /:(x) € Do es evidente. Para el cumpli- 
miento de la condición (J) es suficiente, como hemos visto en la demostra- 
ción del corolario 2, la integrabilidad de f2(x). Pero 


a 
1S? (da(dx) < ¡[co + í Hr. «Cola | p(dx) = 


dá 
=1+ | | fura ucarlucao | du < 1 +24c. 


-4 


Queda hacer uso del teorema 3. La última afirmación del corolario 3 se 
deduce de la desigualdad de Cauchy — Buniakovski, ya que, en virtud de 
esta desigualdad, (Uitolu(do) < PeoÓDN. a 

Corolario 4. Sea 0 el parámetro de desplazamiento de la familta 
fo) = fa -— 0), | £00 in fG0dx > —oo. Si la función fx) está limitada 
(de lo contrario el método de verosimilitud máxima pierde su sentido (véase 
el $ 26)) y tiene un conjunto B de puntos de discontinuidad, cuya medida 
de Lebesgue de clausura y(B*) es igual a cero, entonces la e.v.m. Ú* es fuerte- 
mente conciliable. 

Demostración. Verifiquemos el cumplimiento de las condiciones del teo- 
rema 3. La condición (Y) se cumple de modo evidente. La pertenencia de 
JS (x) € Dy se desprende de la definición de Dp en que es necesario poner 
C, = B” -— ( (este es el desplazamiento del conjunto B* en £, y B* es la adi- 
ción a la clausura del conjunto B). En vista de que el conjunto Be está 
abierto, x — 1€ B” — 1 conduce a x — fx € B” — 1 para |fx: — £| bastante pe- 
queñas. Esto quiere decir que f(x — tr) > f(x — 1). El corolario queda de- 
mostrado. 

Cabe señalar que en las condiciones del corolario 4 es inútil suponer 
que se ha cumplido la condición (Ao), puesto que ésta se cumple automáti- 
camente. Si admitamos que (47) no tiene lugar, llegaremos a la periodici- 
dad de la función f(x), lo que es imposible. 

En cuanto a las condiciones del corolario 4, señalaremos que la condi- 
ción de “continuidad” de f(x), enunciada en este corolario, es muy débil. 
Pero, por lo visto, tampoco esta condición es esencial. Lo confirma, en 
cierta medida, el ejemplo siguiente. 
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Ejemplo 1. Sea f(x) una función arbitraria que tiene un portador li- 
mitado 
(a, b) = [x: f(x) > 0). Entonces 


Po(1Ó" — 6] > 8) < (1 — Fola + 5)" + F3(b — 6), (6) 


donde Fs(x) = | fe(y)dy. La desigualdad (6) significa la conciliabilidad 


fuerte de $”. Esto se deduce de las relaciones que tienen la forma siguiente: 
(Ó -0>85) 0 (H fowata0 > 0) CN tu>a+0+5), 
i=1 l=1 


Po(Ó" - 0 > 5) < [1 — Pola + 0 + 6)" = [1 — Fola + 5))”. 
Desde cierto punto de vista la condición de finitud de la integral 


(Ax) In f(x) dx en el corolario 4 tampoco es esencial: se puede construir 
fácilmente un ejemplo cuando esta integral se convierte en — oo y la condi- 
ción (J) queda cumplida. 

De las observaciones del $ 2.18 se desprende que todo lo dicho en el 
corolario 4 y después de éste conserva por completo su validez para el pará- 
metro de escala. 


$ 28. Resultados de los $5 23—27 para el caso 
del parámetro multidimensional 


En este párrafo trasladaremos al caso multidimensional todos los resultados 
principales de los $8 23—-27. Dichos resultados serán expuestos en el mismo 
orden que en los párrafos indicados, con la particularidad de que sólo nos 
detendremos en los momentos donde el carácter multidimensional modifica 
la formulación del resultado o exige la modificación de los razonamientos. 

Así pues, supongamos 06 € O CR*, k > 1. Las enunciaciones de las con- 
diciones (4), (4.<) y (40), al igual que las definiciones de la relación de 
verosimilitud 


E So + u(X) 
iS SAA) 
y la distancia de Hellinger 
r(u) = 0(Poru, Po) = j (A fo + ul) — LIO) (dx), 


no están relacionadas de ningún modo con la dimensión. 
1, Desigualdades para la relación de verosimilitud (resultados del $ 23). 
Para estudiar el comportamiento de la función Z(u) en el entorno del cero 
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necesitaremos la condición siguiente: la función V'fe(x) es derivable respec- 
to a 8, y la matriz de información de Fisher 


160) = 10! = [Mo zp, 16%, 9) pg 100, o, 0 


para todos 0€ O, está limitada y definida positivamente. 
Dada esta condición, del teorema 21.3A resulta que para todos 60, 


<< ae E hs q sup SP 10) < eo, 2) 


Aquí y en lo sucesivo |+| significa la norma euclídea Ju] = Vui +... + ul 
del vector yu = (u,, ..., Ux). 


La primera afirmación del teorema 23.1 y su demostración se trasladan 
al caso multidimensional sin camios algunos, ya que, de hecho, las mismas 
no están relacionadas con la dimensión. 


Teorema 1. Si se cumple (2), entonces 
MoZ Au) € e-remP?, 


Para generalizar el teorema 23.2 necesitaremos una condición adicional 
que consiste en que 


y = Sup Melf"(x1, 0) < vo (3) 
con cierto s > k. 


Teorema 2 (análogo del teorema 23.2). Si se cumplen las condiciones 
(2) y (3), entonces, con todos z, n > 1 


Po sup 25) > e") NT Y (4) 
r>u vn 
donde c< «e, 8 >0 sólo dependen de K, g y S. 
Para demostrar esta afirmación, en el caso unidimensional hemos utili- 
zado la posibilidad de estimar sup p(u) por los valores de p(0) y 
uc, l) 


1 
$10" (u)idu. En el caso multidimensional, tal enfoque choca con dificulta- 
0 


des, puesto que el valor máximo de p(u) en cierta región DCR*, k > 1, 
no puede ser estimado, hablando en general, por los valores de p(uo), 
lo € D, y la integral de p' (u) (p'(u) = grad p(u)), por una curva registrada 
cualquiera de D. Existen, por lo menos, dos vías para superar esta difi- 
cultad. 

La primera es absolutamente análoga al enfoque unidimensional y con- 
siste en utilizar la estimación que tiene la siguiente forma (en esta fórmula, 
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para simplificar la escritura, nos limitamos al caso bidimensional k = 2): 
1 1 


Ip((0, u2)) óp((u1, 0)) 
sup p(u) < |p(0)]| + a E + EI Xx 
0 


1 
9“p(u) 
x du, + MM du gus 
00 


du, du>, 


donde uy = (u,, 142), Ko, | es el cubo unitario Ko, = lu: O<YS< 1 Jj= 
= 1, ..., k]. Sin embargo, para utilizar este enfoque debemos suponer que 
existen derivadas de k-ésimo orden de la función /e(x) (fo(x)) (véase la defi- 
nición de la función p en el párrafo 23) y saber apreciar los valores medios 
(que necesitamos) de las derivadas de la función p del /-£simo orden, / < K. 

La segunda vía es más conveniente, ya que utiliza la posibilidad de esti- 


mar sup p(u) a través de los valores de p(0) y 
MEROS 1 


[ lo"Goldu (p'(u) = grad p(u), u = (us, ..., 4x)) 


Le. 


con cierto $ > k (cuando s = K la estimación es imposible). Bn este caso, 
sin duda, debemos disponer de las estimaciones para Mo|p'(u)|? cuando 
s > k. La obtención de todas las estimaciones aquí necesarias presenta cier- 
tas dificultades y requiere mucho espacio. Por eso la demostración del teo- 
rema 2 para el caso multidimensional se da en el Suplemento VII. 

También debemos señalar que en el libro editado en ruso se utilizó otro 
método de demostración del teorema 2 (véanse las observaciones bibliográ- 
ficas referentes al Suplemento VII). 

Las demostraciones de las afirmaciones acerca de la conciliabilidad de 
la e.v.m. y acerca de las estimaciones para los momentos en el punto 2 del 
$ 23, no están relacionadas con la dimensión. Las propias afirmaciones 
se conservarán en la forma siguiente. 


Teorema 3 (análogo del teorema 23.3). Sí se cumplen las condiciones 
(2) y (4), entonces pare cualesquiera z, n > 1 es válida (23.6) sustituyendo 
el número 2/4 por 8 (véase el teorema 2). 

Las afirmaciones de los corolarios 23.1 y 23.2 conservan por completo 
su validez sustituyendo igualmente g/4 por £. 

2. Propiedades asintóticas de la relación de verosimilitud (resultados 
del $ 24). 

En el caso multidimensional, por condiciones (RR) entenderemos el 
conjunto de condiciones siguientes: 

1) Condiciones (Ao), (Ac), (R). 


254 CAP. 2. TEORÍA DB BSTIMACIÓN DB PARÁMETROS 


2) Derivabilidad continua de segundo orden respecto a 0 dentro de O, 
de la función lx, t) para c.t. [y] valores de x. En este caso se supone que 
las derivadas 


_ 0 Nx, t) 
lO, 1 = 91191, 


admiten la mayorante I(x) que no depende de t: lI¿(x, 0] < IG), para la cual 
M1) = f 100400 (dx) 


converge uniformemente”) en tc 80. 

3) Además, supondremos, siempre que sea necesario, que se cumple la 
condición (3). 

Al igual que en el caso unidimensional, necesitaremos las dos propieda- 
des siguientes que se deducen de (RR): 

1) Posibilidad de derivar dos veces respecto a 0 bajo el signo integral 
en la igualdad 


[SoGdu(ax) = 1, 


que significa la validez de las relaciones 


3 Ñ y 
[tout =0, | aglag foloutas) = 0, 65 


2) Convergencia uniforme de la integral 1I(0): 
sup Me[(1"(X1, OY, Wa, 01>N—=0 (6) 


cuando N — co, 

Estas propiedades se demuestran en el Suplemento VI. Para simplificar 
la exposición, las referidas propiedades pueden ser intoducidas en las condi- 
ciones (RR). 

En virtud de las igualdades 

1 0f(x) 
¿ > 0) = AT y 
ir, 0) Jo) 00; 

1-94 17. Af fx) 
Sol) 30,00, fix) 30, 90, ” 
de las relaciones ($) resulta que 

Moll 1, 0) = O, 
Molg(x1, 0) = —Melílx1, Ox, 0) = —1y(0). 


LH, 0) = 


% Véase la nota en la pág. 226, acerca de la convergencia uniforme en el $ 24 
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Al igual que en el caso unidimensional, las condiciones (RR) significan 
que tendrán lugar las afirmaciones de los teoremas del y 23 acerca de las 
estimaciones para 


sup Z(v/vVn) y para vVn(6* — 0). 
lv] >w 
Al cumplirse las condiciones (RR), también serán válidos los siguientes 
análogos de los lemas 24.1 y 24.2. 
Lema 1. Las funciones Ij(x, 0) son continuas “por término medio”: 


Mowá(x1) > 0 
es uniforme respecto a 0 cuando A — 0, donde wa(x) = máx sup Mg > 
LJ 0hi<A 


Xx (x, 9 + u) — IMx, 0)). 
La demostración repite exactamente los razonamientos del lema 24,1. <a 
Pongamos 


(L*(X, 9 + 08), w) = (L"(A, 0), w) 


T 
a + (007 |. 


yn(6, 0) = sup 
aci 

he] = 1 

Lema 2. (análogo del lema 24.2). Supongamos que se cumplen las con- 


diciones (RR) y que 5n > 0 es cualquier sucesión que converge a cero. En- 
tonces, para X E Ps 


YnlÓn, 0) Po 0, — ynlÓx, 6”) FE 0. 


En estas relaciones, los valores de I(9) e I(Ó*) pueden sustituirse uno 
por otro. 


Demostración. Al igual que en cl caso unidimensional, es suficiente con- 
vencerse de que ya(ón) > 0, donde 


(L'(X, 9 + w8), 0) — (L'(X, 0), u) _ wL”(X, Ou” 
A A E 


yn(0) = sup SÁ 


los] ua L 


Pero Yn(6») <= 212 w¿.(a) lora, donde wé(x) es el módulo máximo 
de continuidad de las funciones IgGx, 0). Como 


2er! < klco!? = Kk, 
es 
entonces 


yn(br) E 2 bx. 0) 
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La demostración ulterior se base en el lema 1 y repite exactamente los razo- 
namientos del lema 24.2. < 

La generalización del teorema 24.1 para el caso multidimensional aquí 
es el 


Teorema 4. Supongamos que se cumplen las condiciones (RR) y que 
$, >0,n= 1,2, ..., es cualquier sucesión convergente a cero. En este caso, 
si X € Po, para u tales, que ju/Vn| < 6n, 


Y(u) = In Z(u/vVn) = (£,, u) => urO0)u71 + EX, 0,4), (8) 


=L = 115 y 
pea lenX, 9, yl <enX, 02 0, fr = yo Brad LX, 0) a (X, Há 
8 Po, 10). 


El valor de u" = vn(6" — 0) con el que Y(u) alcanza su valor máximo 
es representable en la forma 


u” = ETT ONE + En X, 0), En(X, 0) >0, (9) 
donde E es la matriz unidad. Además, 
ZY(u") = EnI" O)ER(1 + en(X, 0) € 
E UOH € do.xn: (10) 
A la par con (8) es válida la representación 
Y(u) - Y(u*) =(u - UNO) — YA + sx, 0, 0), 
[Ex(X, 0, 1)| < En(X, 0). 


En todas las afirmaciones mencionadas se puede sustituir (9) por 10”). 


Al igual que en el 5 24, en este párrafo, por £.(X, 0) entendemos las 
distintas sucesiones que poseen la propiedad de ex(X, 0) E 0 respecto a Po. 


También debemos señalar que el miembro principal en (8) puede ser 
escrito de la forma siguiente: 


tnuT — > ul(0)u7 = 


= - zu — Enf” (O0)1(0) lu — Enf” 0)” +3 Enf” KOyEZ. 


Esto corresponde a la densidad de una distribución normal multidimensio- 
nal con media £,17*(0) y con matriz de segundos momentos TI” '(0) 
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La demostración del teorema 4 es completamente análoga a la del teore- 
ma 24.1. Del lema 2, cuando A < 5», obtenemos 


(L'(X, 0 + A), m0) = (2'(X, 9), w) — 
— RAMIO)wWT(1 + EX, 0, Aw)), len(X, 0, Aw)] <€ En(X, 0). 
Integrando esta igualdad respecto a A de O a ju|/vVa y poniendo w = u/|ul, 
obtenemos 
ju|/Vn 
L(X, 0 + u/vVna) — L(X, 0) = | (L'(X, 8 + Au), u)daA = 


e Le (LUX, 0), w) — JE MWMw(1 + ex(X, 0, u)) = 
n 


E (En, u) E 3 ulOY)uT(1 + En(X, O, u)), ler(X, O, u)| < EníAX, 0). 


Aquí, según el teorema central multidimensional de límite (véase el suple- 
mento V), 


e] 
1 
= —— I'(x:, 0) € Lo. 19) - 
£n Sn 2 ) 0,K9) 
La representación (8) queda demostrada. Las demás afirmaciones del teore- 
ma se demuestran absolutamente igual que en el teorema 24.1, teniendo 
en cuenta tan sólo las modificaciones de mostradas relacionadas con la 
multidimensión. La relación 


q OE e He 


en (10) se deduce de las propiedades de la distribución normal (véase el 
punto 4 del $ 2.2). « 


Con arreglo a la relación (10) también es útil la siguiente 
Observación 1. La matriz J” '(6), junto con /(6), es positivamente definida, y existe una 
matriz 17 '(6) que es la raíz cuadrada de J” '(9), o sea, una matriz que satiface la relación 


I-“"0u- 0) = 170). 

En efecto, si cierta matriz M > 0 (está positivamente definida), entonces existe una matriz 
ortogonal C para la cual CMC” = díag Qu, .... he) es una matriz diagonal con elementos 
positivos Ay > O en la diagonal. Si ponemos ahora MY? = C” diag (QJ7, ..., N/?)C, obtene- 
mos, evidentemente, la raíz cuadrada de M. 

Valiéndonos de esto y de la simetría de la matriz 77 *(0), podernos (10) escribir en la forma 


7 (Ent HOMES" 0p7, 
17—8030 
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Aquí el vector nn = ¿E,I7 2(0) es, evidentemente, la suma normalizada de los vectores 
aleatorios igualmente distribuidos, con una media nula y una matriz de segundos momentos 
Mo(Eni" M0 (En (0) = Mol” "MOYEñEAL" VAO) a E, 
puesto que 
Moción = Meli (a, YU, 0) = 1(0). 
Esto significa que según el teorema central multidimensional del límite, £,/7” 20) € dos. 


Teorema 5 (análogo del teorema 24.2). Supongamos que se cumplen 
las condiciones del teorema 24.2 para 06€ R* multidimensional y para 
a = B/2 (8 está definido en el teorema 2). En este caso 


Ju | w(u* = u)q(0 + u/ VE Z(u/VnyMKdu) = eYdg(o) x 


Xx Ñ w(u” — u) exp (- > (u - u)YNW0XKu — uy] M(du) + en(X, o). 


(11) 
Si Ml es la medida de Lebesgue, y M(du) = du, entonces 
y (2)? 
v12(0)| 
donde en(X, 0) = 0, y € Lo, 1-0) la sucesión en( X, 0) es vectorial si w(t) 
es una función vectorial). 


eXuog(O Mw) + en(X, 0)), (12) 


El teorema $ se demuestra igual que el teorema 24.2, puesto que la de- 
mostración de este último no está relacionada con la dimensión. 

3. Propiedades de la e.v.m. (resultados del $ 25). Aquí siempre supon- 
dremos que se cumplen las condiciones (RR). 

El análogo del teorema 25.1 tendrá la forma siguiente. 


Teorema 6. La e.v.m. 0" es una estimación asintóticamente normal, con 
la particularidad de que la convergencia 


u” = (Ó* — 0) vn € %, 170) 
tiene hugar junto con los momentos de cualquier orden. En particular, 
Mon(Ó" — 0) (Ó* — 0) => 17 10). (13) 


Además, para cualquier función continua w(t) tal, que |w(£)| < e8i"/2 (el 
número 8 está definido en el teorema 2), 


Mow(u*) > Mw(n), 91€ Bo 1-1) 
La relación (13) significa que Ó* € K3 2. 
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La afirmación del teorema 6 se desprende del teorema 4 (véase (9)) y 
del análogo multidimensional de corolario 23.2 que se deduce del teorema 
3 (compárese con la demostración del teorema 25.1). «< 

Definamos la clase Ko como población de las estimaciones 8” para las 
cuales el desplazamiento b(6) = (b,(0), ..., bx(0)) = Mo0* — O posee las pro- 
piedades 


ID(9)| = o(1/VA), — bi48) = di 
cuando n —> os, 
El análogo de los teoremas 25.2 y 25.3 aquí tiene la misma forma. 


Teorema 7. Ó” es una estimación asintóticamente R-eficiente. Además, 
$ € Ro también es asintóticamente eficiente en Ko. 


>0 


El carácter asintóticamente R-eficiente de 6”, equivalente a (13), tiene 
lugar evidentemente. La pertenencia de 0” € Ko y la eficacia asintótica en 
Ko se demuestran completamente igual que en el caso unidimensional. 

Pasemos ahora a examinar la propiedad del carácter asintóticamente 
bayesiano. El carácter asintóticamente R-bayesiano de la estimación 6” sig- 
nifica, por definición, que (compárese con el $ 20) 


M(0” - 0) (0" — 0) = J/n + o(1/n), J= Í I7UNQL(A0. (14) 
El carácter asintóticamente bayesiano de 0” significa 
lím sup [rv(0*) — nv(09) < O, (15) 


donde 0% es la estimación bayesiana que minimiza v(0”) = M(0” — 6) x 
x V(0” — 0)” para cualquier matriz Y definida no negativamente. 


Teorema 8 (análogo del teorema 25.4). Ó* es una estimación asintótica- 
mente R-bayesiana. Si la distribución a priori Q tiene densidad respecto 
a la medida de Lebesgue en O, entonces Ó* es una estimación asintótica- 
mente bayesiana. 


La demostración es completamente análoga a la del teorema 25.4, La 
relación (14) para 0* = Ó” se deduce del hecho de que 


im Mn(6* — 06" - 6) = 


= M lim Mon(6* — 076" — 0) = MI" (6) = J. 

El paso límite bajo el signo de la esperanza matemática (o sea, de la 

integral) aquí es legítimo, ya que la magnitud Men(0* — 0) "(Ó* — 0) está 

limitada por una constante que no depende ni de n ni de 0 (compárese 
con el corolario 23.2). 


17 
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Para demostrar (15) notemos que, conforme al $ 20, la desigualdad inte- 
gral de Rao—Cramer, en el caso cuando Q tiene densidad, reviste el aspecto 


Mrn(0* — 0)7(9" - 0) >J + o(1). 
Esto significa que 


rnu(89) > Y) vyJy + o(1), 
donde My] = J, lv] = Y. Por otro lado, en virtud de (14) cuando 0” = 6", 
av(Ó") = Y) uyJy + 0(1). 


Es evidente que de estas relaciones se deduce (15) cuando 6” = Ó". < 
Los análogos de los teoremas 25.5 y 25.6 también tendrán lugar. Por 
ejemplo, del teorema S se desprende 


Teorema 9 (análogo del teorema 25.6). Supongamos que X € Po y que 
0 es un punto interior arbitrario de O. Si q(t) es la densidad arbitraria 
continua y positiva (dentro de O) de la distribución a priori, entonces 


vn(6" — 09) 20, 


donde 0% es la estimación bayesiana correspondiente a q(t). 

El carácter asintóticamente minimax de 9” puede ser establecido igual- 
mente que en el teorema 25.7, con ayuda del análogo multidimensional 
del criterio asintóticamente minimax en el corolario 20.3: 


lím sup Mintó* — 0) V(Ó* — 6) = sup Y) lg “O)uy 
r ser 


[Ig (0 = 17 *0), 


y con ayuda del carácter uniforme de convergencia en (13), la cual se dedu- 
cirá de los resultados del párrafo siguiente. 

En el caso del parámetro multidimensional Ó*, cuando su dimensión 
Kk es grande, las propiedades de la optimalidad asintótica de 9 deben utilizar- 
se con cuidado. Es necesario observar que la relación n/k sea grande (el 
número de observaciones para un parámetro escalar). De lo contrario las 
deducciones pueden resultar erróneas. 

Ejemplo 1. En el laboratorio se comprueba la concentración de » solu- 
ciones. Cada una de las 7 concentraciones desconocidas xi, ..., 4n Se verifica 
dos veces. Se supone que la varianza o? de todas nm Observaciones 
(X1» Y1) ...» (Xin, yn) es igual, y que las propias observaciones son indepen- 
dientes y están distribuidas normalmente, así que 


AO = 5 f- 37 Y lO 0 + Or a], 
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donde 
0 = (1, ».»» rro a”). 


Las ev.m. para sj aquí son iguales a 
“e ] 
4 = 5 (Xi + y). 


Es evidente que estas estimaciones no están desplazadas y no son concilia- 
bles. La ev.m. para o? es igual a 


(a?) = + y (a - y¡Y? pe 0?/2 cuando n > oo. 


Esta estimación proporciona con gran fiabilidad un valor falso para el pará- 
metro o? (dos veces menor). 

4. Cálculo aproximado de la ev.m. El contenido de $ 26 conservará por 
completo su validez en el caso multidimensional si por [£ “(X, £)] ” * enten- 
demos la matriz inversa a L“(X, 1). 

5. Propiedades de la ev.m. al faltar las condiciones de regularidad (re- 
sultados de $ 27). Las condiciones de conciliabilidad de 6, enunciadas en 
los teoremas 27.1—27.3, de hecho no están relacionadas con la dimensión, 
La demostración de estos teoremas se conserva por completo con una exac- 
titud de hasta las modificaciones evidentes debidas al hecho de que el con- 
junto O ahora ha de ser recubierto (en virtud de la condición (A.«)) no 
por un número finito de intervalos, sino por un número finito de esferas. 
También se puede decir lo mismo en cuanto a los corolarios 27.1—27.4, 


$ 29. Uniformidad respecto a 0, de las propiedades asintóticas 
de la relación de verosimilitud y de las estimaciones 
de verosimilitud máxima 


En las investigaciones posteriores, principalmente en los $$ 13—15 de capi- 
tulo siguiente, serán útiles las afirmaciones de los 55 24, 25 y 28 en su aspec- 
to uniforme en cuanto a 0. La mayoría de estas afirmaciones (digamos, 
las que tratan de la P+-distribución límite de (9” — 0)Vn) han sido obtenidas 
suponiendo que 0 es un punto registrado de O. Ahora nos interesará qué 
sucederá si 6 no ha sido registrado y cambia junto con nr. Está claro que 
en este caso junto con n también cambiarán las distribuciones Ps, así que 
cada muestra X, tendrá su “propia” distribución para an = 1, 2, ... 

Llegamos, pues, al esquema de series (véase [11]), para el cual las enun- 
ciaciones de los principales teoremas del límite serán algo diferentes. En 
particular, la ley fuerte de los grandes números pierde, hablando en general, 
su sentido, ya que las variables aleatorias sujetas a investigación dejan de 
ser dadas (para diferentes rn) en un espacio probabilístico. 
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1. Ley uniforme de los grandes números y teorema central del límite. 

Sea X€ Po, 7,0 = Il A, 0). 

Definición 1. Diremos que la sucesión yn, 9 converge uniformemente en 
probabilidad hacia la constante a(9), si para cualquier e > 0, cuando 
n—> o, 


sup Po(|nn,o — a(0)| > £) — 0. 
:0 


Esta relación se escribirá en la forma “y», e Pl a(0) uniformemente res- 
4 
pecto a 0”. 


Definición 2. Diremos que y,» converge en distribución hacia la va- 
riable aleatoria ne uniformemente respecto a 0 si para cualquier función 
continua y limitada y, cuando rn > «o, 


sup ¡Mosían, e) — Mp(n0)! — 0. (1) 


Esta relación es escribirá en la forma “nn,. =>» ye uniformemente respecto 
a 0”. Ese mismo sentido le conferiremos a la relación “na, € Ge uniforme- 
mente respecto a 0”, donde Gp» significa la distribución no. 

Le proponemos al lector que él mismo compruebe el hecho de que si 
las funciones de distribución ye son continuas uniformemente respecto a 
9, la relación (1) es equivalente a 


sup IPo(nn.o < x) — P(ne < x)l > 0. 
». X 


Nótese que la convergencia uniforme nn.9 > a(0) y la convergencia uni- 
0 


forme en distribución y,,o > a(9) hacia la variable aleatoria degenerada 
a(0) son equivalentes. 

Nótese también que para la convergencia uniforme conservarán su vali- 
dez los principales teoremas de continuidad. Por ejemplo, si HT es una fun- 
ción continua, de la convergencia uniforme yn,s > no se deduce la 
convergencia uniforme 


H(nn,0) = Ane). (2) 


Estas afirmaciones se deducen directamente de las definiciones. 

En el Suplemento V hemos demostrado los siguientes teoremas “unifor- 
mes” del límite. 

Supongamos que X€P, y que a(x, 9) es una función vectorial medible 
dada: Zx O > R'. Examinemos las sumas 


s(0) = 2a(%u, 6) 


de los vectores aleatorios independientes que dependen del parámetro 6 € O 
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tanto directamente a través de la función a(x, 6), como también a través 
de la distribución de yu € Po. 

Recordemos que la integral ver, NP oe(dx) se llama convergente unifor- 
memente respecto a 9 en la región O, si 


sup ¡ IvGe, O 1Po(dx) > 0 
9 ur, ni>N 
cuando N => oo. 


Teorema 1 (ley uniforme de los grandes números). Sí la integral a(0) = 
= ja(x, OP s(dx) converge uniformemente respecto a 0 € O, entonces, cuan- 
don, 


Sa(0) 
O 
uniformemente respecto a 0. 


Corolario 1. Si la sucesión (0) € O, entonces en las condiciones del 


teorema 1, 
po. ( 


Este hecho será designado 
Sa(0n) = — 
== a(0n) A O. 


£0n — (00 | > £) -0. 


Al examinar el teorema central del límite, para las sumas s,(0) será más 
cómodo suponer a(0) = 0. (Esto no es la limitación de la generalidad, ya 
que podemos examinar nuevos sumandos a? (x:, 6) = a(x:, 6) — a(0)). Pon- 
gamos a*(0) = Mala” (11, OJa(xi, 0)) y designemos por ay(xi, 6), j= 1, 
2,..., Y las coordenadas de los vectores a(x,, 0). 

Teorema 2 (teorema central uniforme del límite). Supongamos que las 
integrales (ax, O)Pe(dx), j = 1, ..., | convergen uniformemente en €. 
Entonces 


,0 = so = 7. € Lo. 0) 


uniformemente respecto a 0. 


2. Variantes uniformes de los teoremas de las propiedades asintóticas 
de la relación de verosimilitud y de las estimaciones de verosimilitud máxi- 
ma, Nótese previamente que, al cumplirse las condiciones (RR), los resulta- 
dos del 5 23 serán uniformes respecto a 9 por su propia forma, ya que los 
segundos miembros de las desigualdades en los teoremas 23.1 — 23.3 (y en 
los teoremas 28.1 — 28.3) no dependen de 6. 
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Pasemos a los resultados de los 55 24 y 28 acerca del comportamiento 
asintótico de Z(u/vn). 

Las afirmaciones de los lemas 24.1, 28.1, 24.2 y 283.2 pueden hacerse 
uniformes respecto a 6. 

Lema 1. Cuando A—>0 


sup Mowá (x1) — 0, 3) 


donde wa(x,) es el módulo máximo de continuidad de las funciones I¿(x, 0). 

Demostración. La validez de (3) para un 0 registrado ha sido demostrada 
en el lema 28.1. Si en este caso admitimos la ausencia de uniformidad res- 
pecto a 0, llegaremos al hecho de que existen e > 0 y sucesiones 6, > 0 € O, 
An >0 tales, que 


Mo.w4 (Qu) > 8. (4) 
Suponiendo, para abreviar, wá, (X1) = w”, obtenemos 


Mo,” = Mo. (w”; fo, (11) € 2f0(x1)) + Mo, (w” ; fo, (x1) > 
> 2x1), (xi) EN) + Mo. (07; fo, (x1) > 2 (x1), (1) > N). 


Aquí el primer sumando no excede 2Mow” y converge a cero en virtud 
del lema 28.1. El segundo sumando no supera 2N7J,, donde 


h= $  fabmág=1= [  f0d)-0 
Je. (0)> 2 Sex) Fo, VEN 


según el teorema de la convergencia mayorada. Por fin, el último sumando 
no supera Ma, (2/(x1); (41) > N) y, en virtud de (RR), puede hacerse, es- 
cogiendo N, tan pequeño como se quiera. Hemos obtenido la contradicción 
con (4), lo cual demuestra el lema. 

Lema 2. La afirmación del lema 28.2 se conservará si la convergencia 
casi segura en ella se sustituye por la convergencia yn(Ón, 0) a] 0, yn(Ón, 


$") >0 uniforme respecto a 6. 


Demostración. Seguirernos la demostración del lema 28.2. Señialemos 
previamente que, en virtud del teorema 1 y de la convergencia uniforme 
de la integral en (RR), 


L*(X, N/n de 1(0) 
MU] 
uniformemente respecto a 0 (la convergencia de Jas matrices se entiende 
por elementos). Además, de los teoremas 23.3 y 28.3 se deduce que $” Ps 0 
0 


uniformemente respecto a 0. De aquí se desprende que en la relación yn(6x, 
6) 7; O (véase el lema 28.2) podemos sustituir (6) por L” (6)/n y por 1(05. 
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En virtud de la desigualdad (28.7), el problema de estimación de yn(6n, 
$) se reduce a la estimación de 


wi (0) = z 2 wm, (As, 0, 


donde w¿(x, 9) es el módulo máximo de continuidad de las funciones /¿(x, 
6). De la desigualdad de Chébishev obtenemos 


sup Pol(wé, (X) > €) € - sup Me ws, (1, 0). 


Pero en virtud del lema 1, sup Mowa (x1, 0) > 0 cuando A — 0. Esto de- 


muestra que 
05 (X) 7 0, valón, 6) 20 (5) 


uniformemente respecto a 0. 
Luego, de las desigualdades (24.6) resulta que el problema de estimación 


de ynlón, $*) se reduce a la estimación de ws. ¡4-94 (A). Como 6* — 
Sl) a 0 uniformemente respecto a 0, de ($) obtenemos que 


We. 1-9 (A) es O, yn(ón, 0”) pa 0 


uniformemente respecto a Ó. «<a 


Teorema 3 (análogo del teorema 28.4). A/ cumplirse las condiciones 
(RR), las afirmaciones del teorema 28.4 se conservarán en las modifica- 
ciones siguientes: En(X, 0) Pa O uniformemente respecto a 0, tn € Lo. 10, 

] 


2Y(u”) € H, uniformemente respecto a 0. 


La demostración del teorema se basa por completo en el lema 2, así 
como la demostración del teorema 28.4 se basa en el lema 28.2. Por eso 
la demostración requerida se obtiene mediante la introducción de modifica- 
ciones evidentes en la demostración del teorema 28.4, relacionadas con la 
sustitución (que resulta del lema 28.2) de la convergencia ex X, 0) +0 por 


la convergencia uniforme £,(X, 0) > 0. Además, hay que añadir ale 


£n =- > IGu, 0) € Do,rcs) 


j=1 


uniformemente respecto a 0, en virtud del teorema 2 y de la convergencia 
uniforme (28.6) de la integral 1(0) (ésta es la matriz de segundos momentos 


266 CAP. 2, TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


para /' (x1, 0)), la cual se desprende de las condiciones (RR) (véase el Suple- 
mento VI). De aquí y de las observaciones referentes a (2) obtenemos la 
convergencia uniforme 


2Y(u”) € Hz. <a 


Las mismas modificaciones que en el teorema 3 (en comparación con 
el teorema 28.4) pueden ser introducidas en los teoremas 28.5 y 28.6. 
Citemos aquí los dos siguientes corolarios del teorema 3. 
Teorema dá, 
u” = vn(6* > 0) e Dr (6) 
uniformemente respecto a 0. En este caso, para cualquier función W06) con- 
tinua casi por doquier respecto a la medida de Lebesgue y tal que 


wd < Cef!x122 (el valor de B > 0 ha sido definido en el teorema 
28.2), se cumple 


sup IM. w(u”) — Mw(7e)!| > 0, (M 


donde yo € Lo. 1-0)» 


Demostración. La primera afirmación se deduce de las relaciones 
u* = tal” LONE + EX, 0), 
len(X, 0) | a 0 ¿£S%to1wm, 


uniformes respecto a 0 y contenidas en el teorema 3, 
Para demostrar la segunda afirmación admitamos que (7) no es cierta. 
Entonces habrá 6 > 0 y sucesiones 6, > 0 € O tales, que 


Mo, w(u”) — Mw(ne,)! > 6 (8) 


para todos ». 

Pero Yo 1-0) > Po,r- (0) Y. POr consiguiente, en virtud de (6), la P.,- 
distribución u*(w(u”)) converge débilmente a la distribución 7e(w(no)). 
Además, según el corolario 23.2 (véase también el $ 28), 


sup Mow*?(u*) < sup Ms exp(3(u")B/4) <c1<o. 


De aquí y de los teoremas de continuidad para los momentos se deduce que 


Mo. w(u*) — Mw(no). 
En vista de que Mw(ro.) > Mw(no), la relación obtenida contradice 
(8). a 
Sea An C2”*. 
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Teorema S. Si Po(An) — 0, entonces para cualquier N registrado, 


sup Po. ./yi(An) > O. 
lulGN 
Esta propiedad de las sucesiones de las distribuciones Ps , , y; cuando 
n —> o se llama contigualidad (véase [81)). La utilizaremos en el capítulo 3. 
Demostración. Tenemos 


Posu/só(An) = Mo 1 Z(u/Vn); An] < 
< Mol(Z(u/vVn); AN (Y(u) < c3) + Poruryi(Y (1) > 0) < 
< e Po(An) + Pos wyn(Y(4) > €). 


Como Py+(An) > O, para demostrar el teorema debemos examinar sólo 
sup Por+uryi(Y(u) > Cc). Según el teorema 3, 
SN 


Y(u) = (En, 4) — 3ul(0UTA + ex, 0+ u/ mes, (9) 


¿9.0 


uniformemente respecto a u, donde a? = uf(0)u7 € NAx(0) cuando 


lul €N, y Ax(0) €s el número máximo propio de la matriz 7/(0). Como 
9 a e, 00)) £ Po a ((c, 00)), entonces, en virtud de la uniformidad en 


(9), 
lim sup Por .vi(Y(u) > c < sp, Poal(c, 00)) = Yoma (o (Cc, 00)). 


ao InlcN 
Eligiendo c, este valor puede hacerse tan pequeño como se quiera. < 

3. Algunos corolarios. 

1) En el $ 25 hemos enunciado el teorema 25.3 en el que se afirma, 
en particular, que 0" € K% donde XK” es la clase de estimaciones asintótica- 
mente centrales, la cual es definida por la relación (se examina el caso unidi- 
mensional) 


Po(Ó* > 0) > 1/2 
uniformemente respecto a 6. Del teorema 4 se deduce que la parte men- 
cionada del teorema 25.3 es cierta, así que 
Ps(Ó” > 0) = Pa(Vn(Ó* — 6)17%*(6) > 0) — do: (0, 00)) = 1/2 
uniformemente respecto a 9. < 
2) En el $ 25 hemos enunciado el teorema 25.7 acerca del carácter asin- 


tóticamente minimax de Ó0*”. Para demostrar este teorema sólo queda es- 
tablecer la validez del lema 25.1 de que 


Um sup Men(Ó* — 0)? e sup 17 *(0), (10) 
»no lelT sr 
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donde J' es cualquier segmento de 6. Pero esta afirmación es el corolario 
directo de la convergencia de Men(6* — 0)? — 77 *(0), uniforme respecto a 
0€ 0, la cual hace válido el paso límite bajo el signo sup: 

€ 


lím sup Mon(b6* - OY = sup lim Mentó* — Oy = = sup 1710). < 
no $r A-% € 
La afirmación, que es análoga a (10) y asegura el carácter asintótica- 
mente minimax de Ó*, tendrá lugar, evidentemente, también en el caso mul- 
tidimensional: 
km sup Mon(óÓ* — 0)V(Ó* —- 0)” = sup SN ui O, 


n-w dT 
Ur (0 = 77 (0) 
para cualquier matriz V. 


$ 30”. Acerca de los problemas estadísticos relacionados con las muestras 
de volumen aleatorio. Estimación sucesiva 


El hecho de que las muestras de volumen aleatorio surgen en la práctica 
y son naturales, es confirmado por el ejemplo 18.3. Otro ejemplo está rela- 
cionado con la llamada estimación sucesiva (o progresiva), que se emplea 
en los casos cuando podemos realizar observaciones sucesivas, es decir, una 
tras otra, y cuando estamos interesados en minimizar el número de tales 
observaciones, digamos, debido a su alto precio. Bn este caso, además de 
la regla de estimación (o sea, de construcción de la estimación 6”) debemos 
establecer la regla de interrupción del experimento, Estas reglas pueden ser 
diferentes: por ejemplo, podemos sumar los precios dados c(x;) de las obser- 
vaciones x, hasta agotarse cierta cantidad admisible £. En este caso el mo- 
mento y de interrupción (número de la última observación o volumen de 
la muestra) será determinado como 


k 
»=mín fk. >, ce) 2d, 
(=1 


esto es “el tiempo del primer del nivel £” en errar con saltos c(u) (véase 
(11), capítulo 3). Se pueden sumar las “informaciones” I(x,, 6) = 
= (1' (x,, 0)? e interrumpir las observaciones cuando sea alcanzado otra 
vez cierto nivel dado, etc. 

En estos ejemplos » un momento markoviano, o sea, fv > n)] € 
€ O(X1, ...., Xn), Que constituye una de las suposiciones principales al exami- 
nar los problemas de estimación sucesiva, Al hacer tal suposición y al 
cumplirse varias condiciones adicionales menos esenciales, la desigualdad 
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de Rao — Cramer será conservada en la forma siguiente: 


| 
T(0Mv ” 


donde 6* = 9*(X1, ..., X») es la estimación no desplazada de 6, /(0), es 
decir, la información de Fisher. La demostración de esta desigualdad es 
análoga a las demostraciones del $ 16, para calcular la información de 
Fisher, contenida en la muestra (X;, ..., X») sólo se necesita utilizar la 
identidad de Wald (véase [11)). 

Si y depende de cierto parámetro f, como ocurrió en el ejemplo 18.3, 
así que y — oo casi siempre cuando i-— oo, entonces es posible construir 
las estimaciones asintóticamente óptimas con un error estándar asintótica- 
mente equivalente a (1(9)M»)”?. 


D.0” > 


$ 31. Estimación por intervalo 


1. Definiciones. Hasta ahora hemos estudiado las propiedades y los méto- 
dos de búsqueda de las mejores estimaciones puntuales de un parámetro 
desconocido que determina la distribución Po de la familia %4= (Py), 
correspondiente a la muestra X. Las estimaciones puntuales se utilizan en 
los casos cuando debemos llamar cierto número 6” destinado al uso en 
vez de 0 desconocido. 

No obstante, también tiene gran aplicación otro enfoque de la cuestión. 

Consideraremos 9 como parámetro escalar (el caso multidimensional 
será examinado en el punto 6). Como sabemos, no es posible determinar 
exactamente 9 basándose en una muestra dada. Pero podríamos tratar de 
indicar tal intervalo (9 ”, 0*), el cual, con una probabilidad dada bastante 
alta, sea capaz de recubrir el valor desconocido de 0. En este caso es indu- 
dable que cuanto más estrecho sea este intervalo tanto mejor será. En 
muchos problemas se exige de antemano, digamos, aumentando el volumen 
de la muestra, construir tal intervalo (67 , 0*) cuya anchura no supere las 
dimensiones dadas. 

Definición 1. Supongamos que para £€ > 0 dado existen variables aleato- 
rias 0% =6*(e, X) tales que 


Po(0" (e, X<O, 0*(, X>0)>1-e. (1) 


Entonces el intervalo (0”, 0*) se llama intervalo confidencial para 0 de 
nivel 1 — e. 


Es evidente que (1) se puede escribir en la forma 
Po.(0" <0 <0*)>1-e. 


El suceso que aquí está bajo el signo de probabilidad, consiste en que 
el intervalo aleatorio (97 , 0 *) ha cubierto el valor desconocido de 9. Leer 
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este suceso como '“'0 toma un valor perteneciente al intervalo (07, 6* y)” 
sería un poco menos exacto, ya que 6, hablando en general, no es aleatorio. 

Los valores de 6* se denominan fronteras de los intervalos confiden- 
ciales, y el número 1 — e, coeficiente o nivel de confianza. 

Por lo tanto, la diferencia entre la estimación por intervalo y la estima- 
ción puntual consiste en lo siguiente. 

1) El intervalo confidencial como estimación es “menos exacto”, ya que 
se señala un conjunto entero de posibles valores de 6. 

2) Por otro lado, la afirmación “90€(0”, 6*) con probabilidad 
> 1] — e” es real, mientras que el suceso 0 = 6” tiene, por lo general, una 
probabilidad igual a cero. 

En calidad de e suele escogerse un número pequeño. Basándose en éste, 
se construyen 9” (e, X) y luego, basándose en la muestra, se declara que 
0€(0” (e, 1), 0* (e, X)). Procediendo de este modo nos equivocaremos en 
una larga serie de experimentos, aproximadamente en el 100 e% de todos 
los casos. Por ejemplo, si e = 0,001, el error puede ocurrir una vez en 1000 
casos, aproximadamente. 

Declarando justa la relación 0 € (97 , 0*), utilizamos el hecho de que 
si cierto suceso tiene la probabilidad e y este e es pequeño, entonces prácti- 
camente es imposible que tal suceso se produzca durante un solo experí- 
mento. Un pasajero, tomando el avión cree intuitivamente en ello con 
seguridad. Le basta saber que la probabilidad de que el vuelo se termine 
felizmente es bastante alta (a pesar de que conoce que esta probabilidad 
no es igual a 1). Precisamente tal enfoque es la base para construir muchos 
procedimientos estadísticos. 

Destaquemos primeramente un caso, cuando la construcción de los in- 
tervalos confidenciales es sobre todo natural y puede ser realizada sin gran- 
des dificultades. Es el llamado caso bayesiano que ya hemos examinado 
en los $$ 10, 11 y 20. 

2. Construcción de intervalos confidenciales en el caso bayesiano. Aquí 
supondremos que el parámetro $ se escoge aleatoriamente, con una densi- 
dad a priori conocida de distribución q(f) respecto a cierta medida A en 
8. Luego se realiza la muestra X E Po y necesitamos construir el intervalo 
confidencial para el valor elegido de 6. 

Si se cumple la condición (A,,), en este caso, como sabemos del 5 10, 
existe una distribución a posteriori de 0 (convencional respecto a X) que 
tiene una densidad de 


FAZ 
[4.009()Mdu) 


respecto a la medida A. Esto quiere decir que en calidad de 9” (e, X) es 


q('/X) = 
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suficiente tomar dos números cualesquiera 0*, para los cuales 
9? 
¡ q(u/XMdu) = |-e 
e 


f 
(o bien > 1 - e si ¡ q(u/X)M(du) cambia al variar £ discretamente). En 


otros términos, en calidad de 9” y 0* conviene tomar las cuantilas de 
distribución a posteriori que tienen los Órdenes 1 — €z y £,, respectivamen- 
te, para todos €, y ez, tales que €, + €) = €. 

Aquí, a distinción del caso no bayesiano, en la relación 9” <0 <0* 
son aleatorios todos los tres elementos : las fronteras del intervalo de 0 * 
y la propia magnitud 0. 

No es difícil ver que en el procedimiento descrito existe cierta arbitra- 
riedad relacionada con la elección de los números €, y €2. A veces esta 
arbitrariedad es eliminada por el propio planteamiento del problema, por 
ejemplo, cuando nos es importante establecer únicamente la frontera confi- 
dencial superior o inferior. En este caso conviene poner igual a 0 uno de 
los números £1, €2 y hacer infinita la frontera respectiva. Sin embargo, si 
las fronteras desempeñan un papel simétrico, es natural escoger e, de modo 
que el intervalo (97, 6 *) se haga más corto en la medida de lo posible. 
Para las distribuciones q(+/X) próximas a las distribuciones simétricas, esto 
se alcanza cuando €, = €2 = €/2. 

3, Construcción de intervalos confidenciales en el caso general. Interva- 
los confidenciales asintóticos. Los principales métodos de construcción de 
intervalos confidenciales se basan en la utilización de estimaciones pun- 
tuales. Examinemos al principio el enfoque asintótico de la construcción 
de intervalos confidenciales. 

Definición 2. Supongamos que X = [Xu], € Ps y que para e > O es- 
tablecido existen variables aleatorias 0” (e, X) tales que 

lím inf P.(07” (e, A)<O<O* (E, DD) >1—E. (2) 
En este caso el intervalo (9 7 , 6?) se llama intervalo asintótico confidencial 
de nivel | — e. 

En esta definición es necesario subrayar que en realidad se trata de la 
sucesión de intervalos (0,, 0.) determinados para cada n. Formalmente, el 
concepto de intervalo asintótico confidencial, con arreglo a una muestra 
de volumen registrado, es insustancial. No obstante, la relación (2) se utiliza 
con grandes » al igual que se utiliza el teorema central del límite para el 
cálculo aproximado de las distribuciones de las sumas de un número finito 
de variables aleatorias. 
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En los apartados precedentes hemos visto que la mayoría de las estima- 
ciones puntuales examinadas eran asintóticamente normales. Más abajo se 
expone la construcción de los intervalos asintóticos confidenciales basados 
en tales estimaciones. 

Sea 0” la estimación asintóticamente normal: 


(9* — 9) VNE Lom» (3) 


y 0(0) es una función continua. Como 0” — 6, la última condición significa 
que d(6”) E o(0). De aquí y de (3), según el segundo teorema de conti- 


nuidad, resulta que 


(0* - O)Vn 
— AOS e dd, 1. (4) 


Designemos por %»y la cuantila de distribución normal de orden 1 - ó, 
O Sea, un número tal que $o,¡((— +0, A)) = 1 — 6, o bien P(1El < A) += 
= | —255i t€ Lo 1. Al disponer de e > O registrado, para »,y2 INtroduz- 
camos temporalmente una designación más breve, suponiendo 


Aer = B. 
Entonces de (4) se deduce 


(0* — O)Yn 


lim Po ( 3% 


A wm 


<A) =1-e. 


Pero esta relación se puede escribir en la forma 
lim Po(6* — BA(0)/Vn <0<0* + Bo(0Y/Vn = 1 — e. 
rn 0 


Ahora bien, los números 
9* =P" ze Po(0)/vVn (5) 


satisfacen la definición 2 y, por consiguiente, son las fronteras del intervalo 
asintótico confidencial de nivel 1 — e. 

Si ahora, para la muestra X dada y registrada, de volumen », cons- 
truimos el intervalo (5), su nivel real se distinguirá, hablando en general, 
de e, pero se distinguirá poco si n es bastante grande. Por eso los intervalos 
asintóticos confidenciales deben tratarse con cierto cuidado, aclarando pre- 
viamente a partir de qué nx la probabilidad del suceso [0 € (07, 0*)) es 
con bastante exactitud aproximada por el valor límite. Por regla general, 
cuanto menor sea e tanto mayor será la exigencia en cuanto al volumen 
de la muestra n. El volumen necesario también depende de la distribución 
P, y de la estadística 6”. 
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Ejemplo 1. Supongamos que X € T,,, y que utilizamos la estimación 
eficiente a” = 1. En los ejemplos 4.1 y 16.1 hemos establecido que 


. D . a? 
Maa = QA, 0 2? 


así que aquí 0 (a) = a? La relación (5) nos da 


Es n-1 
Q e B/Wm). (6) 


¿A qué realmente es igual el nivel de este intervalo? 
Necesitamos hallar FT. 1, o sea, la probabilidad de la desigualdad 


n— 1 n-1 


o bien, que es lo mismo, la probabilidad de la desigualdad 


1 — B/VA < os < 1 + 8/vn, 


donde naX € T, ,. Como «a es el parámetro de escala, entonces 2rax € 
ET 2. = H2n. Así pues, el nivel exacto del intervalo (6) es igual a 
2(n - D(1 + 6/4) 
v1/2,n(X)dx, (7) 
2(n — DA - B/4/M 
donde y1/2,» está definido en el $2”. 

Cuando e = 0,05 y n = 30, tenemos $ = 1,96, (2 — 11 — B/Vn)/n = 
= 0,6201, (1 — DA + 8/Vn)/n = 1,3126. 

Ahora bien, el intervalo asintótico confidencial de nivel 1 — € = 0,95 
con arreglo al caso n = 30, es el intervalo (0,620/X, 1,313/x). 

Si hacemos uso de las tablas de distribución x? con 60 grados de liber- 
tad, en virtud de (7) descubriremos que el nivel exacto de significación de 
este intervalo confidencial constituye (con una exactitud de hasta tres sig- 
nos) 0,937 = 1 — 0,063. En este caso los “aportes”” de los extremos izquier- 
do y derecho del referido intervalo no son equivalentes ni mucho menos 
(compárese con la aproximación normal) y constituyen 0,010 y 0,053, res- 
pectivamente. 

Para n = 50 el intervalo asintótico confidencial de nivel, igual a 0,95, 
tendrá la forma (0,708/x, 1,252/x). El nivel real de su significación será 


% La observación de que Tia, , = Has es Útil, ya que permite, para el cálculo de Fa a 
(si 24 es entero), utilizar las tablas de la distribución x” dadas en el suplemento, así como 
en muchos otros manuales de estadística matemática. 


18—8030 
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igual a 0,942 = 1 — 0,058 (los aportes equivalen a 0,014 y 0,044, respectiva- 
mente), Está claro que si continuamos aumentando », dichos aportes se 
aproximarán con 0,025. 

Volvamos a examinar el intervalo confidencial (5) que hemos construido 
con ayuda de la estimación asintóticamente normal 0”. A distinción del 
caso bayesiano, aquí hay una arbitrariedad relacionada con la elección de 
la estimación 0”. La forma de las fronteras del intervalo muestra Que se 
pueden obtener las dimensiones dadas del intervalo, tanto aumentando el 
volumen de la muestra n (lo que por diferentes causas no siempre es reali- 
zable) como disminuyendo posiblemente s(9”). Aquí llegamos a la conclu- 
sión importante de que siendo iguales los volúmenes de la muestra, la 
estimación de menor dispersión d(0) dará el mejor intervalo confidencial. 
Ahora bien, los mejores intervalos asintóticos confidenciales se obtendrán 
al utilizar las estimaciones asintóticamente eficientes 

Siempre que se cumplan las condiciones (RR) y que 6” pertenezca a 
la clase Ko N Ka, 2 (véanse los $8 8 y 16) el mejor intervalo asintótico confi- 
dencial tendrá las siguientes fronteras: 


9” =0" +8/4/nI(05, 


donde 0* es cualquier estimación asintóticamente eficiente, por ejemplo, 
la ev.m. 

Algunos otros métodos de construcción de intervalos asintóticos confi- 
denciales se examinarán en el punto 6. 

4. Construcción del intervalo confidenciu) exacto mediante una estadís 
tica dada. Supongamos que en calidad de estadística hemos escogido la 
estimación 0”. Entonces, mediante esta estimación, sería natural buscar el 
intervalo confidencial simétrico de nivel 1 — e en la forma 6” + A(e, X) 
o en la forma 0*(1 + A(e, X)), así como se hizo en el ejemplo antes exami- 
nado. No obstante, si tratamos de realizar este plan, resultará que la cosa 
no es tan simple, ya que en el caso general las fronteras +A(e,, X) depende- 
rán del parámetro desconocido 0: pues A(e, .X) debe ser elegido de la con- 
dición 

Po(0” - Ale, X<0<O0"+ Ace, XP) 3 1-—e, 


donde 09 aquí entra, de manera esencial y muy compleja, antes que nada 
a través de la propia distribución Pj. 

Por eso, para construir los intervalos confidenciales mediante una esti- 
mación dada 60”, se necesita cierta estructura especial. 

En la construcción expuesta más abajo, a la par con la estimación 0* 
puede participar cualquier estadística S. Designemos con el símbolo Gs 
la distribución de S y pongamos Gés(x) = Go((— vo, x)). 
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Definición 3. Diremos que la estadística S, en cuanto a su distribución, 
depende mondtonamente de 0 si para todos x, 01 < 0» 


Go ((x, 00)) Ss Ga((x, 00)) 
o bien, que es lo mismo, 
Goa,0) > Ge.(). (8) 


Todas las estimaciones razonables 0” suelen poseer esta propiedad. 
Si la dependencia monótona Go(x) de Ó es continua, entonces la 
ecuación 


Go(x) = y 


es siempre resoluble respecto a 0 para cada y€(0, 1). Designemos por 
b(x, y la solución de esta ecuación. 
Teorema 1. Si e, + ez = e, la estadística S, en cuanto a su distribución, 


depende mondótonamente de 0, y la función Go(x) es continua respecto a 
Ó y x, entonces los valores 


0” =D(S, 1-— €2), 0” = D(S, es) 


formarán el intervalo confidencial de nivel 1 — e. 

La demostración del teorema es casi evidente. Utilicemos el hecho de 
que si la función de distribución F(x) es continua y ¿€ F entonces 
F(€) € Uo,1 (P(E(E) < x) = P(E < F7'*(00) = F(F7 (9) = x). En virtud 
de esta observación, Go(S) € Uo,1 y, por lo tanto, 

Pole, < Ge(S) <1- £2) al-e, 
PoAb(S, 1 - €) <0< DAS, 8) =1 - €. a 


Con frecuencia es cómodo realizar en dos etapas la “inversión” de la 
función Go(S), utilizada en el teorema. Primeramente Go(x) se invierte res- 
pecto a x, o sea, se determinan las cuantilas Gs *(y) como soluciones de 
las ecuaciones Go() = y, y luego se resuelven, respecto a 6, las ecuaciones 


Gr '(e)=S, Gr -8)=S. 


Tales soluciones siempre existirán, ya que, según los datos del teorema, 
Gi *(y) depende monótona y continuamente de 6. 

En la fig. 3 se muestran las curvas y = Gj (61) e y = Gs *(1 — €2) que 
definen para cada 0 el campo de valores y, cuya probabilidad de entrar 
en el mismo, para cierta estimación S = 6”, es igual a 1 — €. Como ya he- 
mos señalado, el procedimiento de construcción del intervalo confidencial 
es la inversión de las funciones 


y= Gr Ue) »= Gs '(1- e), 


18* 
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o sea, la determinación de los puntos de intersección de las curvas de nivel 
y = $ que les corresponden. Los puntos de intersección obtenidos dan pre- 
cisamente el intervalo requerido (67, 0*). 

Si la condición de continuidad de G+(x) no se cumple, lo cual tendrá 
lugar para variables aleatorias discretas S, entonces, en general, el procedi- 
miento expuesto y la afirmación del teorema 1 conservarán su validez, con 
la única diferencia de que, al definir respectivamente las cuantilas Gs *(y), 


»=6;' (1-€) 


Fig. 3. 


es necesario sátisfacer la desigualdad Gx((Gs '(e1), Gi '(A — e) >1-e 

en vez de la cual antes hemos tenido una igualdad exacta. En consonancia 

con esto, la afirmación del teorema 1 en este caso tendrá la forma 
P.(9"” <0<0t)>1-€, 

donde 6* son las soluciones de las ecuaciones Gj'(er) =S, 

Gs (1 — €2) = S. Además, llamaremos intervalo confidencial de nivel 

1 — e el intervalo (07, 0*). 

Si construimos el intervalo confidencial (67 , 6*) con ayuda de la esti- 
mación 0”, de la fig. 3 se deduce que este intervalo será tanto más. estrecho 
cuanto más estrecho sea el intervalo (Gy '(e1), Gs (1 — e2)) o bien, que 
es lo mismo, cuanto más concentrada sea la distribución de 0” cerca de 
9. Ahora bien, aquí llegamos al mismo problema que en la teoría de las 
estimaciones puntuales, o sea, a la determinación de las estimaciones 0” 
que aprecian 6 de la forma más exacta, 

El problema relacionado con la construcción de los mejores intervalos 
confidenciales se examina más detalladamente en el $ 3.8. 

En vista de que la forma de las funciones de distribución Ge(x) suele 
ser bastante compleja incluso para las familias simples de distribuciones 
citadas en el $ 2, el referido procedimiento de inversión de Ge(x) en la prác- 
tica resulta muy difícil. Por eso el cálculo de las fronteras confidenciales 
está considerablemente tubulado. En el ejemplo siguiente, donde ilustramos 
la construcción de los intervalos confidenciales según el esquema descrito 
en el teorema 1, para simplificar la exposición utilizaremos la aproximación 
normal. 
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Ejemplo 2. Sea X € B,. En calidad de estimación para p tomemos la 
estimación eficiente p” = »/n, donde » es el número de casos favorables 
en n pruebas (el número y» puede designar, por ejemplo, la cantidad de 
artículos desechados que han sido descubiertos durante la verificación de 
control de 7 muestras. Es necesario construir el intervalo confidencial para 
la porción de artículos defectuosos p). 

Tenemos (q = 1 -— p) 


Gr) = Pr(p* < x) = Pp E Qa= ze). 


Vnpq Y npq 
Conforme al teorema 1 debemos resolver la ecuación 
Grp) = y (9) 


para los valores y iguales a e/2 y 1 — e/2. Cuando n son grandes, en virtud 
del teorema central del límite, Gp(x) = P((x — p)n/YVnpq), donde $) = 


= Lo .1((— oo, y)), y, por consiguiente, la ecuación (9) puede ser sustituida 
por su aproximación 


b((p” - p)n/Vnpg) = y, y = e/2, 1 - e/2, 
o bien, que es lo mismo, l(p* — p)n/Vngql = A, = 8, 


(p" — pY = BA - ph. 


Esta es la ecuación para las fronteras p” del intervalo confidencial, que 
no es otra cosa sino la ecuación de la elipse extendida para grandes n a 


lo largo de la bisectriz p* — p = 0. Despejando p en esta ecuación, ob- 
tenemos 


p* =p" =p ( - pYn. 


No es difícil comprobar que obtendríamos ese mismo resultado si utilizára- 
mos el enfoque asintótico expuesto en el punto 3. 
Si n no es grande, conviene calcular G,(x) por la fórmula exacta 


Gp(x) -= 2 Cip*(1 - py, 


aplicando luego el procedimiento del teorema 1. 

Supongamos, por ejemplo, que de n = 10 artículos y = 2 resultaron de- 
fectuosos. Entonces, cuando € = 0,05, las fronteras exactas del intervalo 
confidencial son iguales a p” = 0,037, p* = 0,507. La gran anchura del 
intervalo se explica por la poca información de que disponemos. 

No obstante, si 1 = 100, » = 20, entonces, para e = 0,05, 


p” 20,137, p* =0,277. 
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Hemos tomado estas cifras de tablas especiales que dan la solución numéri- 
ca del problema sobre los intervalos confidenciales para el número p, siendo 
diferentes n y y (véase [8]). 

5. Otros métodos de construcción de intervalos coufidenciales. 

En este apartado examinaremos ciertas generalizaciones del procedi- 
miento antes propuesto, relacionado con la construcción de intervalos con- 
fidenciales. 


Teorema 2. Admitamos que en O Xx 2” existe una función G(0, x), tal, 
que la distribución H(B) = Ps(G(0, X) € B) no depende de 9. Supongamos 
también, que G(0, x), para cada x, es continua y monotóna respecto a 0. 

Admitamos luego, que y”, y* satisfacen la relación H((y”, y*)) = 
= 1 -— e. Entonces las estadísticas 


07 =É=G "7, Xx),0* =G 'G*, X), si G(0, -) 1, 
y 
0" = G"*p*, A), 0* = Gr, X), si G(0, -) y, 


son las fronteras del intervalo confidencial de nivel 1 — e. Aquí G” Y, 
AX) es la solución de la ecuación G(0, X) = y. 


Demostración. En virtud de la monotonía de G(6, x) (supongamos, para 
precisar, que G(0, x) crece respecto a 0), el suceso (G”*(y7, M<0< 
< G7*(y*, X)] coincide con el suceso 4 = [»" < G(0, M< y*). 

Por definición de H(-) e y* tememos 


P.07" <0<0*)=PAG" O”, M<O<G" "WO? x= 
= P4(A) = H(L7, y") =1-e. a 


Observación 1. En el teorema 1, en calidad de G(0, X) hemos examinado 
la función Go+(S). Además se ha cumplido H = Up 1. 

Observación 2. Se puede examinar el análogo asintótico del teorema 
2, admitiendo la existencia de la sucesión de funciones ([G,(0, x)]) continuas 
y monótonas respecto a 0 y tales que, cuando n — oo, 


Po(Gn(0, X) € B) > H(B), 


donde H(-) no depende de 6. Entonces obtendremos el método de construc- 
ción de intervalos asintóticos confidenciales, que generaliza el método de 
construcción de intervalos asintóticos confidenciales mediante estimaciones 
asintóticamente normales, expuesto en el punto 3. 

Ahora proponemos un método más (a la par con el teorema 1) de elec- 
ción de la función G(0, x) que figura en el teorema 2. 


Teorema 3. Sea Fe(x) = Po(x1 < x), con la particularidad de que 
1) F.Qo) es continua respecto a x para todos 0 € O, 
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2) Fo(x) es continua y mondtona respecto a 0 para cualquier x registra- 
do. Entonces la función 


00, x)=- E In(ñe) 


satisface las condiciones del teorema 2. 
Si los números y* son tales que 


y: 
1 =l,.-x ES Ez 


y 


entonces 0* = G” (y*, X) formarán las fronteras del intervalo confiden- 
cial de nivel 1 — e. 


Demostración. Verifiquemos el cumplimiento de las condiciones del teo- 
rema 2. Como, según la condición 1), Fo(xy) distribuida uniformemente en 
[0, 1], entonces —in Fe(x) € F¡,¡ y G(6, X) ET',,,. Con otras palabras, 
P.(G(0, XA) € B) =T,»(B) y H =T,,, no depende de Ó. La monotonía y 
la continuidad de G'(0, x) se deducen, para cada x, de la condición 2). Ade- 
más, en virtud de (10) 


H(09”", y» *Y=TP15n(07,y*)=1-e. a 


También se pueden señalar algunas otras construcciones de los interva- 
los confidenciales, En este caso, al igual que en la teoría de estimación 
puntual, en seguida surge la pregunta acerca de qué intervalo confidencial 
debe considerarse el mejor si se han obtenido varios intervalos. En el $ 3.8 
trataremos de los enfoques que existen en este caso. Sin embargo, de la 
exposición precedente está claro que, de hecho, el problema de búsqueda 
del intervalo confidencial óptimo es en mucho muy parecido al problema 
de estimación puntual óptima. También está claro que si construimos los 
intervalos confidenciales utilizando las estimaciones puntuales, conviene 
dar preferencia a los intervalos confidenciales construidos con ayuda de 
las mejores estimaciones. 

La semejanza de los problemas de optimación de las estimaciones pun- 
tual y por intervalo puede ser ilustrada citando el ejemplo de la afirmación 
siguiente. 

Teorema 4. Examinemos el intervalo asintótico confidencial (07, 0*) 
de nivel 1 — e y supongamos que la variable aleátoria 0* = (0* + 07 1/2 
es la estimación asintóticamente normal y asintóticamente central (véase 
el punto 2 del $25), y la magnitud A =(0* — 07 )/2 es tal, que 5 = 
= lím inf vnA no depende de X. En este caso 5 > B/V1(0). 


AN” 
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Esto quiere decir que la anchura del intervalo confidencial (9”, 0*) 
no puede ser mucho menor que 28/V4nF(0), o sea, menor que la anchura 
del intervalo de nivel 1 — a construido con ayuda de la ev.m. Ó”. 

Demostración. Admitamos lo contrario. Entonces habrá una subsuce- 
sión de los números [n”) para los cuales AYn* => cB8/V1(0), e < 1. Como 
0* 5 0” x= A, entonces 
l-—-e= lím Poq(067" <0<0*)= lím Po(l10” —- Ó6l <A) = 


a no 


, 
Fs 


lím Po(16* — 01 Va” < c8/41(0)) < lim Po(1Ó6* — OlVn < 
< cB/NTOOY. —(M 


La última desigualdad se deduce del hecho de que la e.v.m. Ó* es asintótica- 
mente eficiente en la clase XK? de estimaciones asintóticamente centrales 
(véase el teorema 25,4). En vista de que en (11) el segundo miembro es 
menor que 1 — e, hemos obtenido la contradicción que demuestra el teore- 
ma. < 

6. Caso multidimensional, El concepto de intervalo confidencial se ge- 
neraliza en el caso del parámetro multidimensional 0 € R* en el concepto 
de región confidencial o de conjunto confidencial. 

Definición 4. El subconjunto aleatorio” O * = O *(e, X) del espacio pa- 
ramétrico O se llama conjunto confidencial de nivel 1 — € si 


P.0*3)0>1-e. (12) 


Con otras palabras, el conjunto confidencial de nivel 1 — e recubre el 
valor real desconocido de 6 con una probabilidad no menor de 1 - e. 

Definición 5. Si X = [Xo]» € Po, y si el conjunto aleatorio O * satisface 
la relación 


lím infP,(0* 30) >1- e, 
y-» o 


entonces O” se llama conjunto asintótico confidencial de nivel 1 — e. 

Los conjuntos confidenciales “exactos”, incluso óptimos, se estudian en 
el $8 del capítulo siguiente. 

En lo que se refiere a los conjuntos asintóticos confidenciales, el princi- 
pio de su construcción es el mismo de antes. Teniendo en cuenta el teorema 
4, examinaremos a la vez los conjuntos confidenciales construidos con ayu- 
da de la ev.m. 0”. Como sabemos, al cumplirse las condiciones (RR), 
XEGP., 


(6" — 0) VnT"*(6) € Lo, z. 
* En este contexto diremos que el conjunto 0 (e, X) es aleatorio si para cada £ el conjunto 


(X: r € O*(2, X)) es medible y, por lo tanto, también diremos que la probabilidad (12) está 
definida (compárese con el $ 3.8.). 
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De aquí se deduce que 
n(Ó* — OI0XÓ" - 07 € Ha, 
n(Ó* - OLÓNÓ" - 07 E Ha. 


Con otras palabras, si h. significa la cuantila de orden 1 — e de la distri- 
bución 14 con k grados de libertad, entonces 


lim Pelr(0 — Ó IÓ NO - ÓN) <h)=1-e. (13) 


Hemos construido el conjunto asintótico confidencial O * de nivel 1 — e 
que es un elipsoide cuyo centro se encuentra en el punto 0” y cuyos ejes 
se definen por la matriz n/(0*)/h,. En este caso no es obligatorio calcular 
la matriz /(0) para la construcción de 6”. Como sabemos, al cumplirse 
las condiciones (RR), X € Po, 


LX, 0 - L(X, 6) = — 7 (0 - ÓN - 6"). 


Por eso el elipsoide O * definido en (13) puede representarse como la pobla- 
ción de los valores de 6 para los cuales 


L(X, 60) - L(X, 6%) > —h./2. 


En el $ 28 hemos determinado que el límite de la P+-probabilidad de esta 
desigualdad (véase la observación 28.2) es igual a l — e, 

De aquí resulta, en particular, que en el caso unidimensional, las fronte- 
rasÓ * del intervalo asintótico confidencial de nivel 1 — e pueden ser defini- 
das como las soluciones de la ecuación 


L(X, 0) - L(X, 6 = -h./2 = — 8/2. 


$32. Distribuciones muestrales exactas e intervalos 
confidenciales exactos para poblaciones normales 


Entre todas las distribuciones citadas en el $ 2, la distribución normal tiene 
la mayor aplicación. Por eso en este párrafo examinaremos especialmente 
la construcción de los intervalos confidenciales para los parámetros a y 
o” de la distribución *,, ,,. 
1. Distribuciones exactas de las estadísticas x, S?. Supongamos que Y € 
€ d0.1 y que C = key (i, f= 1, 2, ..., n) es una matriz ortogonal. 
Examinemos la distribución del vector n-dimensional Y = XC, Y = 


(Yi, ---» Yn) Yi = PY XyCH » 


Lema 1. Si C es una matriz ortogonal, entonces Y € Bo 1, O sea, las 
coordenadas y1, ..., yn son variables aleatorias independientes, y; € Po 1, 
l=1,2, ..., A. 
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Demostración. Sea £ un vector (ty, ..., tn). La normalidad de la distri- 
bución de X significa que su función característica es igual a 


Me'*" <= e cd 
donde m = my! es una matriz de segundos momentos, que en nuestro 
caso es igual a la matriz unidad E para la cual tE? = > d, 

Es Jul 


“Va 


Me” =e Ñ 
La función característica de la distribución compatible y,, ..., ya (0 
de la distribución del vector Y) tiene la forma 
FO = Me" = Mei”. 
Sustituyendo las variables ? = uC y notando que CC” a E, obtenemos 
¿84 -¿£4 
FO = Me*“* = Me” = e se a 
Esto quiere decir que Y tiene la misma función característica y, por lo tanto, 
la misma distribución que X. «a 
Ahora demostremos una afirmación llamada lema de Fisher, que es 
muy importante para la exposición ulterior. 
Lema 2. Supongamos, como antes, que X € Yo |, que C es una matriz 


ortogonal y que Y = (y1, ..., yn) = XC. Entonces, la forma cuadrática 
T(X) = bm Yi A 
no depende de las variables aleatorias y,, ..., yr y tiene una distribución 


x* con n — r grados de libertad: 
La demostración es casi evidente, ya que después de aplicar la transfor- 
mación ortogonal de C, obtenemos 


A 
TA) = 2 yi-yi— YN A EN 


Solamente queda utilizar el lema 1. < 
Pasemos ahora al estudio de la distribución compatible de las estadísti- 
Ñ 


cas xy => 3 Gu - xy 
1 


Teorema 1. Sea X € t, ,.. Entonces 

1) GE -— ajvn/0E %o.1, 

2) (n — 1)55/0 € Hn- 1, 

3) las variables aleatorias X y S¿ son independientes. 
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Demostración. La afirmación 1 es evidente. Además está claro que sin 
limitar la generalidad podemos considerar a = 0, a = 1. Tenemos 


(n- DSi=a Y xf- nx?. 
ln1 
Notemos que 


Vx = q Ma + 200 + Jako 


y que el vector columna »-dimensional E (su norma vale 1) siempre 
puede ser completado hasta cualquier matriz ortogonal C. Entonces 
y, = VnX es la primera coordenada Y = XC y, en virtud del lema 2, obtene- 
mos que 


(n — DSi = 2 xi—- y € Hh-) 


y que las variables aleatorias (n — 1)82 e y, = vnX son independientes. < 
Corolario 1. Sea X € €,, ,.. Entonces la variable aleatoria t = (Xx — 
— ay vn/So € T,-1, O sea, tiene una distribución de Student con n — 1 
grados de libertad. 
Esto se deduce del teorema 1 y de la representación 


(X - ajvna l 


 -.--— a. 
Ñ 1 (m-DS 
n-1 o? 


La afirmación del teorema 1 acerca de la independencia de Sí y X puede 
ser amplificada. Resulta que X no depende del vector X — x (o sea, que 
no depende de los sumandos de S3). Esto se deduce de la normalidad de 
x y de X — x, así como de la no correlatividad de las variables aleatorias 
Xx y Xy — X, la cual se desprende de la igualdad (a = 0) 


Mx — Ex = 2 E — 1)Mxj — M (> x) | =0. 
lm2 


2. Construcción de intervalos confidenciales exactos para los parí- 
metros de distribución normal. Examinemos primeramente dos situaciones 
elementales. 


f= 
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a) Supongamos que X € *, ,* y que o? se conoce, Es preciso cons- 
truir el intervalo confidencial de nivel 1 — € para el parámetro «a. En este 
caso la forma del intervalo confidencial se deduce, evidentemente, de las 
igualdades 


P(1x — a)vVn/al < A) = P(—0B/VA<X - a<oB/Vn=1-e, 
donde, como antes, $6 = »de/2, Po,1((— 00, As) = 1 — Ó, así que 
a*(e, X) = X = 08/vhn. 


Proponemos que el lector, en forma de ejercicio, haga uso de un proce- 
dimiento un poco más formal, expuesto en el teorema 31.2, con la utiliza- 
ción de la función Gía, X) = (X= — ay vn/0 E do. 1. 

b) Ahora supongamos que se conoce «a. Es necesario construir el inter- 
valo confidencial de nivel 1 — £ para a”. 

Pongamos 


Es evidente que en este caso nS?/0? € H, y, por consiguiente, 


PO < nSi/o? < y) = HalOn y7)) = PlnSi/yo < o? < nSi/y;). 


Ahora bien, las fronteras del intervalo confidencial de nivel 1 — e tendrán 
la forma 


(0?) * = nsi/y 


para todos y» tales que Ha((Y;, Ya) = 1- e. 

Si se utiliza el procedimiento del teorema 31.2, conviene poner 
Glo, X) = nSt/o? G H,. 

Pasemos ahora al caso cuando ambos parámetros a y o? se desconocen 

c) Con el fin de construir el intervalo confidencial para g?, hagamos 
uso de la estadística Gi(a, X) = (n — 1)853/0?. En virtud del teorema 1, 
G¡(o, X) € H,,- . Luego procedemos al igual que en el caso b) Las fronte- 
ras del intervalo confidencial para o? tendrán la forma 


(07) * = (n — ISVyYE 1. 


Es fácil ver que las estadísticas G(o, X) y Gito, X) en los casos b) y 
c) tienen la misma distribución y, por lo tanto, dan los mismos intervalos 
confidenciales para o* siempre que en el caso b) tengamos una observación 
más que en el caso c). Hablando figuradamente, en el caso c) ““perdemos” 
una observación debido a la existencia de una indeterminación adicional, 
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o sea, del parámetro desconocido a. Esta observación se destina, en cierto 
sentido, a estimar el parámetro “obstaculizante” a. 

d) Construyamos ahora el intervalo confidencial para «. Hagamos uso 
de la estadística G¡(a, X) = (X — a)vn/So. En virtud del corolario del te- 
orema l, 


Gila, AX) € Ta -1. 


En vista de que la función G1(a:, A) satisface las condiciones del teore- 
ma 31.2, los razonamientos ulteriores repiten exactamente los correspon- 
dientes razonamientos en los casos a), b) y c). Las fronteras del intervalo 
confidencial tienen la forma (para simplificar la exposición tomamos un 
intervalo simétrico) 


a* =X + 7:S0/vn. 
donde 7, se determina de la igualdad 
P(H,- 1l < 7,) = Ta -1(-7e, re)) =1-e€. 


Nótese que si el valor de Sy es próximo al de o, entonces el intervalo 
confidencial obtenido será más ancho que el dado en a), ya que 7, > $ 
(véase la observación en el $ 2). Esto se explica, como antes, por la existen- 
cia del parámetro “obstaculizante” q el cual se conoce en a). 

Los números y*, para los cuales en las investigaciones citadas se ha 
cumplido la relación 


P(G0W, DECO", y "Y =1-e, 


en la práctica suelen determinarse con ayuda de las tablas de la estadística 
matemática. 


En el $ 3.8 mostraremos que los intervalos confidenciales construidos 
en este párrafo son, desde cierto punto de vista, los mejores. 


*) Es interesante notar que, a pesar de las ideas intvitivas iniciales, por una observación 
1, € %,, + es posible construir el intervalo confidencial para a*, siendo a desconocido. Los 
siguientes razonamientos que muestran esto fueron comunicados a nosotros por 
L. N. Bolshakov. 

Escojamos u de modo que 9(1/u) -— $(—1/4) = £, donde P(x) = Lo, 1((— 0, 9). En- 
tonces 
Po > ulxil) = P(-0/u < x, < 0/4) = P (-! 21) - 


O 


CAPÍTULO 3 


Teoría de verificación de las hipótesis 


En los $$ 1—3, 1) se expone la teoría de verificación de un número finito (en particular, dos) 
de hipótesis simples. 

Los $65 4—12 están dedicados a los métodos de construcción de criterios óptimos para 
verificar dos hipótesis compuestas. En particular, se examinan tos criterios bayesianos y mini- 
max (los $$ 4 y 9) y se utilizan los principios de suficiencia, de carácter no desplazable y 
de invariación para construir los criterios uniformemente más potentes. 


En los 56 13—17 se estudian los métodos de construcción de criterios asintóticamente 
óptimos. 


$ 1. Verificación de un número finito de hipótesis simples 


1, Planteamiento del problema. Concepto de criterio estadístico. Criterio 
más potente. En este capítulo se tratará de la verificación de cualesquiera 
suposiciones (hipótesis) respecto a la distribución P de la cual se ha extraído 
la muestra X. Aquí, al igual que en la teoría de las estimaciones, no existiría 
tal problema, si la distribución P, de la cual se extrae la muestra X, fuera 
conocida. 

La decisión de que es cierta o no la hipótesis dada H debe basarse exclu- 
sivamente en el conocimiento de la muestra X € P extraída y, posiblemente, 
también en el conocimiento de la información a priori respecto a P si dispo- 
nemos de ella. 

Ahora bien, para determinar el procedimiento de toma de decisión ba- 
sándonos en la muestra X, debemos establecer, de una u otra forma, la 
aplicación del espacio muestral 2” en el conjunto de hipótesis que se exa- 
minan. Tal aplicación suele llamarse criterio estadístico. Las definiciones 
exactas para diferentes situaciones concretas se darán más adelante. 

Comencemos por el problema más simple: verificación de un número 
finito de hipótesis simples. 
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Definición 1. Llamaremos hipdtesis simple cualquier suposición que de- 
fina unívocamente la distribución de la muestra X. 

Supongamos que se dan r distribuciones P,, ..., P,, y supongamos 
que sabemos que X' es la muestra de una de estas distribuciones. El proble- 
ma consiste en determinar a qué P; precisamente, j = 1, 2, ..., r, pertenece 
X. Cada r hipótesis 


A, =1X€P,) () 


será simple y, por consiguiente, se tratará de la verificación de r hipótesis 
simples. 

En este capítulo, al igual que en el capítulo 2, examinaremos con fre- 
cuencia el caso paramétrico cuando la muestra X'se ha extraído de la distri- 
bución P.€2= (Po) ¿y - En este caso, al cumplirse las condiciones (40), 
las hipótesis simples se escribirán en la forma: H;,= (X € P,,), donde 
61, ..., 0, son los puntos fijos de O. El caso (1) también puede considerarse 
como paramétrico con un conjunto finito O = (1, ..., rl]. 

Estos razonamientos muestran que no hay una diferencia de principio 
entre el problema de estimación de los parámetros y el problema de verifica- 
ción de las hipótesis: en ambos casos determinamos el valor desconocido 
de 6. Sin embargo, existe cierta diferencia y ésta consiste en que en el proble- 
ma de verificación de las hipótesis, los valores posibles de 6 son discretos, 
y los enfoques relacionados con la comparación, digamos, de las des- 
viaciones estándar, desarrollados en el capítulo 2, aquí son inaplicables. 
En este caso escogeremos otros criterios para comparar las reglas de acepta- 
ción de unas u otras hipótesis, basándonos en la muestra X. 

Con el carácter discreto del conjunto de los posibles valores de € tam- 
bién está relacionada otra nueva cualidad que aparece aquí: ahora pode- 
mos, con una probabilidad no nula, indicar exactamente el valor 
desconocido de 0; (o la distribución P,,), mientras que en los problemas 
de estimación de los parámetros, la probabilidad de tal suceso es, por regla 
general, igual a cero. 

Definición 2, Se llama criterio estadístico para verificar r hipótesis 
H,,..., H, toda aplicación medible 5: 2" = (H,, ..., H.). 

En otros términos, 5(X) es una “variable” aleatoria que toma los valores 
Hi, Az, ..., H,: si 6(X) = Hr, entonces aceptamos la hipótesis Hz (o sea, 
consideramos que Y = 6, en el caso paramétrico). 

La aplicación 5(-) se llama, a veces, regla de decisión o función de decl- 
sión. Claro está que la asignación de la regla de decisión es equivalente 
a la partición del espacio 2” en r conjuntos borelianos M1, Az, ..., Q, 
disjuntos, en los cuales se aceptan las hipótesis H,, Ha, ..., H,, respecti- 
vamente. 
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La calidad del criterio se caracteriza, con más frecuencia, por el conjun- 
to de probabilidades de decisiones erróneas: 


os = al(8) = P(X¿0) = PEA « H;). 


Bl número q, es la probabilidad de rechazar la hipótesis H; cuando ésta 
es cierta. Este número se denomina probabilidad del error de t-ésimo género 
del criterio 6. 

Si logramos escoger el criterio 8 de modo que todos los números a; 
sean pequeños, entonces, según nuestro principio fundamental mencionado 
en el $ 2.31, consideraremos que en una sola prueba el error es prácticamen- 
te imposible y declararemos que es cierta la hipótesis H; si 5(X) = H;. 
En este caso nos equivocaremos, aproximadamente, en parte de los casos 
oy = Pi(6(X) + H;) si en realidad es cierta H;. 

Es deseable, desde luego, efectuar la verificación de las hipótesis de mo- 
do que se reduzca al mínino la probabilidad de todos los errores. No obstan- 
te, si se establece el volumen de la muestra X, entonces no podremos dirigir 
simultáneamente todas las probabilidades de los errores. Se puede sólo, fi- 
jando algunas de las probabilidades de errores, tratar de minimizar las 
demás. 

Aquí llegamos a la cuestión de cómo comparar entre si diferentes crite- 
rios. Introduzcamos en el conjunto de todos los criterios, para verificar 


las hipótesis H,, ..., H,, un orden parcial. 
Definición 3. Bl criterio $1 es mejor que el ó2 si para todos i = 1, 2, ...,r 
a1(51) <a;i(52) 


y al menos para un ¡ tiene lugar la desigualdad estricta. 

Sin embargo, los criterios 5, y 52 no siempre, ni mucho menos, pueden 
compararse desde este punto de vista. Al igual que pueden ser incompa- 
rables dos estimaciones 6; y 67 desde el punto de vista del enfoque estándar, 
cuando en calidad de criterio tomamos Mo(0* — 6)?. Para tener la posibili- 
dad de comparar los criterios es necesario contraer el conjunto de las reglas 
de decisión que se examinan. Para esto examinemos las clases 


Ka... a = 10: 04y(6) = ay, j=1, 2, ..., r— 1). 
En las clases Ko, ...«,_. ya se puede establecer la relación de orden 


entre los criterios en cuanto a la magnitud «,: cuanto menor sea a,(6), tanto 
mejor será el criterio. 


Definición 4. El criterio $0 € K.,,...a,-, se llama criterlo más potente 
(cm.p.) en la clase Ko... ..-, si para cualquier 58€ Ko.....0,-1, 


atrk do) < otr (0). 


Recordemos que hemos hecho algo semejante en el capítulo 2 al compa- 
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rar las estimaciones. Allí hemos destacado, por ejemplo, las clases Ko de 
estimaciones con desplazamiento registrado. 

A la par con el enfoque recién introducido en la teoría de verificación 
de las hipótesis, al igual que en la teoría de estimaciones, existen otros dos 
enfoques que permiten ordenar el conjunto de todas las reglas de decisión 
con ayuda de una sola característica numérica: son los enfoques bayesiano 
y minimax. 

Antes de estudiar los métodos de construcción de los criterios más po- 
tentes en las clases Ka,,....a,-,, EXamínemos estos dos enfoques. 

2. Enfoque bayesiano. Este enfoque supone que la distribución P, de 
la que fue extraída la muestra X se ha elegido aleatoriamente. En este caso 
las hipótesis A, = (X € Py), j = l, ..., r serán sucesos aleatorios, y desig- 
naremos las probabilidades de estos sucesos por 

QU) = qa, 
así que Q es una distribución a priori en el conjunto de las hipótesis 
[Hi, ..., H,l, y 90) son las probabilidades a priori de dichas hipótesis 
(compárese con el 5 2.11). En este caso es más fácil comparar los criterios, 


puesto que aquí podemos determinar la probabilidad media aq(5) del error 
del criterio 6: 


an(8) = Y OLI)PJOGO % H) = E 20040, 0) 


y de este modo ordenar por completo el conjunto de criterios en cuanto 
a la magnitud «ap(ó). 

Definición S. El criterio ó = 6 que minimiza la probabilidad del error 
ag(S) se denomina criterio bayesiano correspondiente a la distribución a 
priori Q. 

Supongamos que se cumple la condición (A4,.), o sea, las distribuciones 
P, tienen densidades f(x) respecto a cierta o-finita medida yu. Al igual que 

» 


antes, la función (0) = II YA) se llamará función de verosimilitud. 
jat 


La función f(x) = 20/00) es la densidad incondicional de la distribu- 
ción de X respecto a la medida sx”, y q(N/00 es la densidad de la distribu- 
ción compatible del par (0, X) en el que el número 0 de la hipótesis se 
elige al azar. 

Ahora bien, si se da la muestra X, entonces, en el caso bayesiano se 
puede construir la distribución a posteriori Q, de las hipótesis H, (la medida 
A que figura en el 5 2.11, aquí es una medida de cálculo) la cual se determina 
por la fórmula de Bayes: 


Qx(Ho) = (k/X) = E 3) 


Esta es la distribución condicional de 0 respecto a X. 
19 8030 
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Por M designaremos la esperanza matemática incondicional que corres- 
ponde a la distribución P del par (9, X). 


Teorema 1. 1) La probabilidad del error ay(85) de cualquier criterio $ 
satisface la desigualdad 


ag(ó) > 1 — did qU/X). (4) 


2) Para que el criterio 8 = 59 sea bayesiano para la distribución a priori 
Q, es necesario y suficiente que para P de casi todos los valores de X, este 
criterio satisfaga las relaciones 


5) = Hi si q(k/X) e máx qU/X). (5) 


Para 5 = ¿y en la desigualdad (4) se alcanza la igualdad. 
Nótese que el segundo miembro en (4) no depende de 6. 
Demostración. Supongamos que se da el criterio $. Examinemos el suce- 
so Ds que consiste en que el criterio $ conduce a la decisión errónea: 


D, -U (0 =), 5%) e H)). 


Entonces, evidentemente que aq(5) = P(Dy) y la notación (2) será el resul- 
tado obtenido al promediar sucesivamente: primero respecto a X al ser re- 
gistrado 9 = j, y luego respecto a 9. Pero también podemos escribir «p(ó) 
de otro modo: primero promediar respecto a 6, siendo registrado (X), y 
luego respecto a A: 


a9(8) » (PD/X = x)f 601 (dx) = 
= MP(Dy/X) = M y P(9 =), 5(X) * H/X) 
e | 


Pero 56(X) es medible respecto a X, por eso 
De aquí obtenemos 


aq(ó) = 1 — M 2 G0/A is 4) 2 1- ima qUíA): 


La primera afirmación del teorema queda demostrada. 

La suficiencia de la segunda afirmación del teorema se deduce con evi: 
dencia de la primera, ya que la frontera inferior establecida para ap(5) se 
alcanza para el criterio ó9 definido en (5). La modificación de $9(X) en 
el conjunto de P-probabilidad nula, por lo visto no modifica «o(6p). 
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La necesidad de la segunda afirmación se demuestra de manera igual- 
mente sencilla. En efecto, supongamos que 6 = 5, es el criterio bayesiano 
y que 5(X) = Hx, q(k/X) < q(1/X) = mes qU/X) para XE A, P(A) >0. 


Entonces, para el criterio 5,(45, que se distingue de 5(X) sólo en el conjunto 
A: 6 (X) = H; para X€ A, obtenemos 


Pr A) = PA) M | Ta aogaryi 4] = 


= P(4) — Mlq(1/X); A] < P(4) — Mig(k/X); A] = P(Ds; A); 
P(D,,) < P(D5) = P(D;,). 


Hemos obtenido la contradicción. a 

Cabe señalar que la notación (5) aún no define por completo el criterio 
50: ella no aclara bien qué hipótesis deben aceptarse cuando resultaron má- 
ximos dos o más valores de q (¡/X). Se trata, evidentemente, de la definición 
de la función do(A) en las fronteras 


Te = (xE2”: qUdfro) = Fri qm) 


de los conjuntos 
DL = 1x2”: gro) > máx q0/100) (6) 


en los cuales, según ($), como criterio 59 se toma la hipótesis Hz. 
Por consiguiente, Ú£ es el “interior” de la región 
2 = (x€2”: 6o(x) = Hx) 

de aceptación de la hipótesis Az y necesitamos, en adición a (6), determinar 
tan sólo qué puntos de la frontera T', pertenecen y no pertenecen a Q£ 
Pero este problema, como se deduce de los razonamientos citados, puede 
ser resuelto muy sencillamente: podemos asociar los puntos de T', a cual- 
quiera de las regiones “adyacentes” Úf en este caso obtenemos el mismo 
valor de «agp(6) puesto que (5) será cumplida. Mejor dicho, si A C 
CcrTÍÉM... NFx, entonces para X € A, según el criterio bayesiano, no 
importa cuál de las hipótesis H;,, ..., Hx, será aceptada. Podemos inclu- 
so tomar la decisión a azar, o sea, con probabilidad px, elegir la hipótesis 


Hx,i21,..., 1, Y) px, = 1. En este caso el valor de ap(6) no variará. 
iw] 
Aquí llegamos a un concepto más general del criterio estadístico rando- 
mizado (de la palabra inglesa random) que resulta muy útil. 
Definición 6. Se llama criterio estadístico randomizado, para compro- 
bar las hipótesis H,, ..., H,, cualquier aplicación medible 1; 2* > RO, 


donde R“? es el conjunto de vectores (71, ..., 7), 71 >0, Y 1 =1. 
al 


19* 
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El criterio randomizado, a cada x € 2” le pone en correspondencia con 
la distribución de las probabilidades r(x) = (7,(0), .. ., r(%)) en el conjun- 
to [H,, ..., H,), y la decisión final acerca de la aceptación de la hipótesis 
“se sortea” al azar con esta distribución ya independientemente de X, des- 
pués de haber determinado r;(X). 

El criterio estadístico ordinario es, evidentemente, un caso particular 
del randomizado, cuando todos r, equivalen a 0 y sólo uno es igual a 1. 
Tales criterios adquirieron el nombre de criterios no randomizados. 

El error de ¡-ésimo género a: () para el criterio randomizado se determi- 
na análogamente: 


ay(r) = P, (no aceptar H;) = 1 -— Mix). 


En el caso bayesiano, el problema de minimización 
aq(r) = 2 qU)ay(r) 


se examina de manera absolutamente semejante. Si, como antes, designa- 
mos por Ó el número de la hipótesis elegida al azar, con una distribución 
a priori Q, de modo que Q(0 = f = 3(), y por M, también como antes, 
designamos el símbolo de la esperanza matemática incondicional, entonces 


dais z g()Mer(X) = 1 - Mr(X) = 1 - MM(00/X) = 


=1-M Y qu > 1 MmáxqU/X) 


Así pues, hemos obtenido la misma frontera inferior tanto para ag(r) 
como para los criterios no randomizados. Esto significa que ampliando 
la clase de criterios, en nuestro caso no podemos mejorar el valor de «g(6). 
Es más, el valor mínimo se alcanza en el criterio no randomizado 59. Sin 
embargo, en este caso el número de criterios randomizados bayesianos x*, 
o sea, de criterios para los cuales ap(r?) = eo($p), será mucho mayor que 
los no randomizados, ya que en el conjunto 


donde Y = 2” XT, podemos tomar, en calidad de **(x), cualquier vector 
del subconjunto Rx,,....x, CR“ compuesto de vectores r en los cuales só- 
Jo se diferencian del cero las coordenadas con números k,, ..., k¡. Es evi- 
dente que Rx se compone del único vector ex en el que la k-ésima 
coordenada es igual a 1, y las demás, a cero, y debemos poner 


a2(x) = ex cuando xe€dL 
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Como las relaciones expuestas con una exactitud de hasta los valores 
de r*(x) en el conjunto de P-medida 0, son necesarias y suficientes para que 
agíx*%) = ap(bp) = 1 - M máx qU/X), 
podemos, a la par con el teorema 1, enunciar la afirmación siguiente: 

Teorema 1A. 1) Para cualquier criterio randomizado, 


agír) > 1 -— PRA qU/X). 


2) Para que el criterio «2 sea bayesiano es necesario y suficiente el 
cumplimiento de las relaciones 


*2(0) = ex cuando xe€ÚL, (7) 
TER... cuando x€Tk...2 


para P de casi todos tos valores de x. +, 


3) Para todos g¿>0,j=1,...,r; » 8y= l es válida la desigualdad 
J=1 


ap(r?) = y aajlr% s Da NN (8) 


Si mínq;y> 0 y no todos f¡(x) coinciden, o sea, si existen los valores Kk, 
J 


jy el conjunto A, P(A) > 0 en el que f(x) * f(x), entonces el signo en 
la desigualdad (8) será estricto. 


Observación 1. De (8) se deduce que 
ap(r%) < 1- máx qU). (9) 


Aquí en el segundo miembro figura la probabilidad del error del criterio 
que elige H si q(k) = máx q0) (éste es el criterio bayesiano entre todos 


los criterios no dependientes de la muestra .X). 

Demostración del teorema 1A. Ya hemos demostrado las dos primeras 
afirmaciones. Para demostrar la última afirmación es suficiente comparar 
el criterio bayesiano r? con el criterio r*(X) = g = (g1, ..., gr) no depen- 
diente de X y para el cual, como es evidente, ay(r”) = 1 — g;, 


apla”) = pa IA — £) > a0(x9). 


Si en (8) tiene lugar la desigualdad, entonces el criterio r*“(A) = g = 
= const será bayesiano. Según la segunda afirmación del teorema, esto es 
posible únicamente en el caso cuando q(1/X) = ... = q(4/X) P casi por 
doquier. Esto, a su vez, es posible únicamente cuando f,(A) = ... = £.(AX) 
P casi por doquier, 9(1) = ... = q(r). a 
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Así pues, la introducción de los criterios randomizados no permite dis- 
minuir la probabilidad del error de «gy, pero aumenta la 'propia variedad 
de los criterios y, en particular, el número de criterios bayesianos TU. Esta 
circunstancia resulta, a veces, útil. 

En lo sucesivo, por criterio estadístico entenderemos, por regla general, 
el criterio randomizado r. 

3. Enfoque minimax. Mientras en el caso bayesiano hemos medido la 
calidad del criterio según la magnitud media ap(*) = 2q(Nay(*), ahora 
compararemos los valores máximos 


a(r) a dir aj(r) = mes ag(r). 


Es evidente que esto también permite ordenar el conjunto de todos los cri- 
terios. 


Definición 7. El criterio x = F para el cual 
a(m) = mín a(r) 
w 
se llama criterio minimax. 
La siguiente afirmación es el análogo completo del teorema 2.11.2. 


Teorema 2. Supongamos que existe el criterio bayesiano x (correspon- 
diente a cierta distribución a priori Q) para el cual 


ca0(1) =... = o4(x). (10) 
Entonces + es el criterio minimax. 


Demostración. Designemos por 7(/) las distribuciones a priori corres- 
pondientes a Q. Entonces para cualquier criterio r tenemos 


a(r) > A qU)axr) > 2 aNaj(r) = de aj(r) = a(a). <a 
7] JE 


La distribución Q = (4U)] correspondiente al criterio 7 se llama crite- 
rio peor (o criterio menos favorable, compárese con el $2.11). Esto está 
relacionado con el hecho de que para Q =Q se alcanza 


máx ap(r?) = máx mín alí»), 


así que el criterio minimax (10) es el criterio bayesiano que posee la mayor 
probabilidad de equivocarse. La demostración de este hecho se puede hallar 
en los capítulos posteriores, donde también mostraremos que la peor distri- 
bución y el criterio minimax siempre existen. 

Sin embargo, es preciso señalar que a distinción de los criterios baye- 
sianos, los criterios minimax no randomizados existen no siempre, ni 
mucho menos. El asunto consiste en que las fronteras separadoras TP, de 
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los conjuntos M£ (véase (6)) pueden tener una probabilidad no nula 
Px(X €T'x) > 0 y, por lo tanto, los valores de a«x(S9), al modificarse conti- 
nuamente Q, pueden variar a saltos. Esto quiere decir, a su vez, que r — 1 
ecuaciones aldo) = ... = ar(80) para r-— 1 desconocidas qí(l),... 


..-, q(r -— 1) (ac =1-— )YiqU)) pueden no tener solución. No 
Ju1 


obstante, en la clase de criterios bayesianos randomizados, el criterio mini- 
max existe siempre. En calidad de ilustración examinaremos detalladamente 
esta cuestión (para el caso r = 2) en el párrafo siguiente. 

Así pues, hemos hallado la forma explicita de los criterios bayesianos 
y hemos establecido que con su ayuda se pueden construir los criterios mi- 
nimax. Resulta que de manera análoga también se pueden construir los 
criterios más potentes en las clases Ko,,....a,., introducidas en el punto 1. 

4. Criterios más potentes. La definición del c.m.p. no randomizado fue 
dada en el punto 1. Aquí será cómodo extender esta definición a la clase 
de criterios randomizados. Supongamos que, análogamente al punto 1, 
Ka,.....«.-, Significa la clase de criterios randomizados con valores registra- 
dos de las probabilidades de los errores de /-ésimo género, f = 1, ...,r — 1: 


Ka... 0. =10 yr = ay j=1,..., r- 1). 


Definición 8. El criterio mo € Ka,.....a,-, Se llama c.m.p. en Ka, ....a.., Si 
para cualquier € Ko,.....a.-. 


aro) € ar (a). 


Teorema 3. Supongamos que existe una distribución Q = ([(gq(M, ... 
..., G(r)), tal, que 


ar?) 1 - MARA) say j=l ... r-1 (11) 


(en realidad, aquí tenemos r — | ecuaciones para los valores desconocidos 
de q(1), ..., g(r — 1). Entonces el criterio bayesiano x*Y, definido en (6) 
y (7), será el más potente en la clase Ko......a..» 


Demostración. Según la definición del criterio bayesiano, 
ap(r2) € ag(m). 
Esto significa que para r€ Ko, ....«.., tendremos 


P r-] 
A qNaxr?) A qa, + q(rar(r). 
Pero aj(r?) = a, para j < r - 1 y, por consiguiente, a,(r8) < ar). < 


Aquí, por la misma causa que al hallar los criterios minimax, las 
ecuaciones (11) en la clase de los criterios no randomizados $ no siempre 
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son resolubles. En la clase de criterios randomizados, la situación cambia 
considerablemente. Esta circunstancia será ilustrada en el párrafo siguiente. 

Ahora citemos el ejemplo de un problema real muy difundido, acerca 
de la verificación de un número finito de hipótesis simples. i 

Ejemplo 1. Supongamos que la hipótesis H, significa que un paciente 
que vino para ser reconocido por el médico, está sano, mientras que Hz 
significa que el paciente padece de cierta enfermedad Ax, k > 2. La tarea 
del médico consiste en aceptar una de las hipótesis Ff,, basándose en las 
observaciones (que pueden ser escritas en forma del vector xi = (X11, 
X12, ..., X1,) que es de por sí la muestra multidimensional X de volumen 
unitario). Fijaremos las enfermedades Ax para que las hipótesis A; sean 
simples y asimismo determinen por completo la distribución de la muestra 
X. Si el médico acepta la hipótesis Hx, Kk > 2, mientras que en realidad 
es cierta la hipótesis H,, entonces cometerá un error de un tipo. Pero si, 
al contrario, reconoce sano (H,) al enfermo (4Tx), entonces cometerá un 
error de otro género. No es difícil comprender que los “efectos” producidos 
por los errores de estos dos tipos pueden ser muy diferentes. 

De los resultados expuestos anteriormente deducimos que para cons- 
truir la mejor regla de decisión, debemos saber las distribuciones del vector 
de las magnitudes observables (x11, ..., Xi1,) para individuos sanos y para 
individuos que padecen de la enfermedad Ax (para ello necesitamos muchos 
datos estadísticos de exámenes médicos). Por supuesto que una gran parte 
del problema aquí consiste en la propia elección de s y de las observaciones 
(X11» X12» ..»., X1s). Precisamente en esto se manifiesta principalmente el 
arte y la experiencia de los médicos. 

Si el vector (X11, ..., X14) se ha elegido de manera bastante argumenta- 
da, los teoremas 1-3 nos indicarán la vía directa para algoritmizar los 
problemas de la diagnosis de las enfermedades. 


$ 2. Verificación de las bipótesis simples 


En este párrafo examinaremos un poco más detalladamente un caso parti- 
cular, cuando se verifican r = 2 hipótesis simples. 

En los problemas de verificación de las hipótesis, estas últimas desempe- 
ñan a menudo un papel asimétrico, como ocurrió, digamos, en el ejemplo 
1.1. Por eso, una de las hipótesis, por ejemplo H,, suele llamarse fundamen- 
tal y las demás, alternativas. En este caso, la probabilidad del error de pri- 
mer género «a1(6) del criterio $ también se denomina dimensión, y el número 
1 — a1(6), nivel del criterio. El número $£(5) = 1 — a2(6) se llama potencia 
del criterio. 

La región 0, C 2” de aceptación de la hipótesis Af por el criterio no 
randomizado 6, en el caso de r = 2 se denomina región crítica. La probabili- 
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dad P2(X € 02) de caer en esta región, cuando es cierta Ha, equivale a la 
potencia del criterio B(6). De aquí procede la denominación de “criterio 
más potente” para el criterio 6 con el que $(6) alcanza su máximo para 
un nivel registrado del criterio 6. 

Señalemos ahora, que en el caso de r = 2, cualquier criterio, incluso 
el andomizado, puede caracterizarse por una función numérica. En efecto, 
el criterio randomizado arbitrario r(x) se define totalmente por el valor 
de su r coordenadas x1(x), ..., *-()). Pero como 2xy(x) = 1, en caso de 
r = 2 es suficiente designar una función, digamos, r2(1). Esta función de- 
termina la probabilidad de que se acepte la alternativa Af. Designémosla 
por r(x) y llamémosla función crítica del criterio r que designaremos con 
la misma letra xr. Es evidente que para los criterios no randomizados, r(x) 
sólo adopta los valores de O y 1; en el caso general 0 < T(9 € 1. 

La dimensión «a, (”) del criterio r (o 6) y su potencia S(r) se expresan 
a través de r(x) del modo siguiente: 


o(7) = MiTCOO, B(r) = 1 — om2(r) = Mar(X0. 
Designemos por Z la relación de verosimilitud 
Z = Z() = f£u00/40) 
que examinaremos sólo para los valores de x, con los cuales ella está defini- 
da, o sea, para x cuando f,() + 20%) > 0. 
Teorema 1. 1) Supongamos que e = 4(1)/g9(2), donde Q = (4(D, qQ)Y», 


y que q(2) = 1 — qíi) es una distribución a priori dada. Entonces el criterio 
7. p con la función crítica 


ll) si ZO)><c, 
Tc. p(x*) = IP), si ZO) =C, (1) 
0, sí ZO)<c, 
para cualquier función medible plo), 0 < PO < 1, es bayeslano para la 
distribución Q: Top = we, 
Los parámetros a1(xc.p) y 2 (Tc. p) del criterio *..» satisfacen la des- 
igualdad 


2 2 
Y IMalre») < Y 90M — 8) (2) 


para todos 8, 20, 21 + 22 = 1. 

2) Para € > 0 dado, tal que P¡(Z > 0) > e, existen c>0 y po) 5 
= p = const fales que Top € Ke = [xr ar(xr) = e), y "e. p es el c.m.p. en Ke. 
Los números c y p se definen como la solución de la ecuación 


ct(ac.p) == Mire. p(X) == P(Z(X) > Cc) + pP-(Z(X) = c) = €. G) 
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En este caso la potencia del criterio B(*¿. y) = 1 — ar (7. p) satisface la des- 
igualdad 
BC <.p) 2 £. (4) 


Si no se cumple la relación fa() = $f1(x) c.d. [1], entonces, las desigualdades 
(4) y Q) para 0< q,< 1 son estrictas. 

El criterio x*«.p minimiza la probabilidad del error de primer género 
a(xw) en la clase K de todos los criterios « con una probabilidad fija del 
error de segundo género: K = [mr ar(x) = ar(rc.p). 

3) Existen c > 0 y p(x) = p = const tales, que el criterio *c.p será mini- 
max Los números c y p se determinan de la ecuación ar(*c. p) = 2 (Te, p) 
o bien, que es lo mismo, de la ecuación 


PAZO > 0) + PAZOS > 0) + PIPUZO += e) + PAZO = 0)] = 1.(5) 


Es evidente que si la P¡-distribución de Z(X) es continua, o sea, si 
PUZ(O = £) = 0 para todos c > O, entonces, en las dos últimas afirma- 
ciones del teorema podemos poner p=1ó0pEs=0. 

Nótese también que 


PUZOO = cd) = 


= | hi0)" (dx) = LO ¿sao = ZPAZVO = 0, 
TZ) = € Ziiuc 


así que la continuidad en (0, co) de la P,-distribución de Z conduce a la 
continuidad de la P2-distribución de Z. 

El criterio r«.p, basado en la relación de verosimilitud Z, se llama crite- 
rio de la relación de verosimilitud. 

El teorema 1 muestra que todos los criterios óptimos son criterios de 
la relación de verosimilitud. 

La segunda afirmación del teorema 1 lleva el nombre de lema de 
Neyman — Pearson. Si en esta afirmación, la condición P,(Z > 0) > e no 
se cumple, o sea, si P_(Z = 0)= 1-5 Ó5< e, entonces el c.m.p. r(X) = 
= Iizw9>0) tendrá potencia 1 y dimensión 6 < e. Por ejemplo, si los por- 
tadores de las distribuciones P, y P, son disjuntos, entonces Z = 0 en el 
conjunto donde f(x) > 0 y, por lo tanto, P,-(Z > 0) = 0. En este caso, las 
hipótesis H, y Ha se distinguen por una observación, con probabilidades 
de errores iguales a cero, O sea, se distinguen de un modo determinado. 

Demostración del teorema 1. La primera afirmación del teorema es el 
corolario directo del teorema 1.1A. 

Para demostrar la segunda afirmación Se puede hacer uso del teorema 
1.3. Mostremos primeramente que la ecuación (3) es siempre resoluble res- 
pecto a € y p. Es evidente que la función p(c) = P,(Z > c) no crece en 
[0, 00). La variable aleatoria Z es propia con respecto a la distribución P., 


o sea, 
p(c) = PL(Z > c) = 


se | ñas <l | pta =L ez > 0 >0 
ZW >e zZiD>< 


cuando C > eo. Como, según la condición, p(0) > e, entonces existirá cs € 
€(0, co) tal, que (p(c) será continua a la derecha) 


p(ce - 02€, (ce) E e. (6) 


Si en (3) suponemos que € = C¿, y designamos A¿ = p(c: — 0) — p(ce), ob- 
tendremos 


Ar (re,,p) = p(ce) + pds. 


Es evidente que aquí, en virtud de (6), siempre se puede escoger p € [0, 1] 
de modo” que p(ce) + pd: > €. 

Ahora podemos proceder igualmente que en la demostración del teore- 
ma 1.3. Pongamos q(1) = qs = C:2/(ce + 1) y fijemos el p que hemos elegi- 
do. Entonces, el criterio Tc ,p será bayesiano, correspondiente a la 
distribución Q. = (qs, 1 — q.) y al mismo tiempo a, (Te .p) = 8. Esto sig- 
nifica, en virtud del teorema 1.3, que Re, p ES el c.m.p. en Ko. 

Si tomamos el criterio r(x) ss e, obtenemos 


T € Ke, ara .p) € ara) ml - €, B(Tc,.p) > €. 


No es otra cosa sino la desigualdad (2) ((1.8)) para g2 = €. Por consiguiente, 
si la relación 209 = A: Go) cd. [1] no se cumple, entonces estas desigualda- 
des serán estrictas. La afirmación del teorema acerca de la minimización 
de a:(”) en el criterio re p dela clase XK = (mr. a0(r) = ar (re: p)) se deduce 
de los razonamientos anteriormente aducidos y de la simetría con respecto 
a las hipótesis A, y Ha del planteamiento del problema en la primera afir- 
mación del teorema. 

A fin de demostrar la tercera afirmación del teorema 1 conviene valerse 
del teorema 1.2. Para esto sólo necesitamos comprobar si la ecuación 
ar(re,p) = 2 (re, p) es resoluble respecto a c y p. Esta ecuación se puede 
escribir en la forma 


Mi Te p(A) =1- Mar. p(X) 
o bien, que es lo mismo, en la forma de (5). Su solubilidad se deter- 


% Bstá claro que si p(c) es continua en el punto ce, el problema de resolución de (3) 
a reduce a la determinación de la cuantila de distribución de Z de orden 1 - £. 
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mina al igual que la solubilidad de la ecuación (3). Sólo es necesario 
señalar que siempre P,¡(Z > 0) + P2(Z > 0) > 1, ya que P2(Z > 0) = 
= A0de"(dx) = 1 <a 

f00>0 

Hemos visto una vez más que el objetivo de la introducción de los crite- 
rios bayesianos randomizados consiste en asegurar la variación “continua” 
de los parámetros de dichos criterios (los posibles valores de las dimen- 
siones de los criterios re p llenan todo el intervalo (0, 1)). La falta de tal 
variación continua de los parámetros, relacionada con el hecho de que en 
el conjunto de la P,-probabilidad positiva es posible la igualdad /1(0) = 
= (20), constituye el principal obstáculo al hallar los criterios de un nivel 
dado o los minimax en la clase de criterios no randomizados. Este cuadro 
también se conserva por completo en el caso de verificación de un número 
mayor de hipótesis. 

También es importante señalar que dos tipos de criterios óptimos — 
los más potentes y los minimax — resultan bayesianos en unas u otras 
distribucions a priori. Tampoco es difícil notar que la clase de todos los 
criterios más potentes coincide, desde cierto punto de vista, con la clase 
de todos los criterios bayesianos. Tal situación, en la que en calidad de 
base para la elección de los criterios óptimos puede utilizarse el enfoque 
bayesiano, también se conservará en mucho posteriormente. 

Ejemplo 1. Examinemos el ejemplo 2 citado en la introducción. En este 
ejemplo, las hipótesis A, y Ha tienen la forma A, = (xi € FO0)), 4h = 
= (xi € F(x — a)), donde F(x) es una función dada de distribución, y a, 
un número dado. Supongamos que F(x) tiene densidad f(x) y que la va- 
riable aleatoria f(x, — aY/f(x1) tiene una distribución continua. Entonces, 
según el lema de Neyman — Pearson (punto 2 del teorema 1), entre todos 
los criterios de nivel 1 — e, el criterio 


FG — a) d> 
11 JD di 


será el más potente en el problema sujeto a examen, dedicado a la verifica- 
ción de la hipótesis H, (falta el objeto), frente a la hipótesis Ff (el objeto 
está presente). El número c, se determina de la condición 


P (Dí allan o > Ima) =e. 


¿1 


Si n son grandes, para el cálculo de esta probabilidad podemos, evidente- 
mente, hacer uso del teorema central del límite. 


3". DOS ENFPOQUBS ASINTÓTICOS 301 


$ 3% Dos enfoques asintóticos del cálculo de los criterios. 
Comparación numérica 


1. Observaciones preliminares. En los $5 1 y 2 hemos hallado la forma de 
los criterios óptimos para verificar las hipótesis simples. Bl término “cálcu- 
lo de los criterios” que hemos usado en el encabezamiento significará el 
cálculo de los parámetros que caracterizan el criterio. En el problema del 
cm.p. esto es, en caso de r = 2, la búsqueda de las magnitudes c, y p para 
£ > O dado la determinación de la probabilidad del error de segundo género 
are, ,p) O bien, que es lo mismo, de la potencia del criterio 
Blre, y) = 1 -— a2(ro ,p). La cuestión también puede ser planteada de una 
manera algo distinta. Hemos visto que en caso de r = 2 todos los criterios 
óptimos tienen la forma de las funciones r. p representadas en (2.1). Supon- 
gamos que se da el criterio re p. ¿Cómo determinar para él las probabilida- 
des de los errotes «(rc p)? 

Esta misma pregunta también surge, por supuesto, en el caso general 
de r > 2 para el criterio (1.7), pero en este párrafo nos limitaremos, para 
abreviar, al caso de dos hipótesis simples. 

Más abajo se examinan los enfoques asintóticos que permiten resolver 
aproximadamente (con grandes n) tales problemas, Esos mismos enfoques 
también pueden utilizarse para calcular los criterios que se examinarán en 
adelante. 

Así pues, supongamos que se da el criterio (2.1) y que la distribución 
de Z(X) es, para abreviar, continua, así que podemos poner p m 1. Enton- 
ces, el criterio (2.1) se volverá no randomizado (designémoslo por 5;¿) y nece- 
sitaremos hallar sus valores: 


al) = P, E > e) 5 (1) 


an (8) = Pz (oo < c). 


A 
Como fHA) = TI 0), el suceso que se encuentra bajo el signo de pro- 
Ju] 


babilidad en (1) puede ser escrito en la forma 
ña 


donde los sumandos 
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son, evidentemente, variables aleatorias independientes, igualmente distri- 
buidas en cada uno de los casos X € P),, J 2 1, 2. 
Ahora bien, el hecho se reduce al estudio de las distribuciones de las 
” 


sumas >, y; de las variables aleatorias ni. 
le1 


En lo sucesivo supondremos que el volumen rn de la muestra X' crece 
indefinidamente. En esto caso, por criterio entendremos, en realidad, la 
sucesión de los criterios definidos para cada n (hemos utilizado ese mismo 
acuerdo para las estimaciones en el capítulo 2). 

2. Hipótesis fijas. En este apartado supondremos que las distribuciones 
P, están fijas, o sea, no dependen del volumen n — co de la muestra X, = 
= [Xo)]n. Examinemos el problema de cálculo del c.m.p. de nivel fijo 1 - e. 
Tenemos 


Mim = —-a= [10 10 p(dx) = —qrí(P,r, Pa) < O, 


Mom sb = (Yaco meo > Hd) == ar(Pa, Pi) > 0, 


donde q, es la distancia de Kullback — Leibler (véase el $ 2.21). Esto signifi 
a que, en virtud de la ley de los grandes números, la P,-distribución de 


= > y, permanecerá concentrada en el entorno del punto —a, y la 


Pp, «istribución, en el entorno del punto h». Y esta ““separación” de las distri- 
buciones será la mejor desde el punto de vista del lema de Neyman — Pear- 
son. Designemos of = Dyy: y supongamos que aj < «o. Entonces 


on(6;) = Ps (An > Inc) =P, (a Zo +90 mer), (2) 


le] 
Escojamos en calidad de c = c(n) toda sucesión para la cual 


Inc + an 
—>2%, 
01VHN 


donde A. es, como antes, la cuantila de la distribución normal de nivel 
1 — €. Entonces, de (2) y del teorema central del límite resulta 


on(éc) — 1 e qua + E) Es (3) 


Definición 1. El criterio ”— que satisface la relación 
lím o(r) = lím Mir (X) = e 


se llama criterlo de nivel asintótico 1 — e (o de dimensión asintótica e). 
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Por lo tanto, para 
Inc = —an + Mo vn + o(vn), (4) 


el criterio $¿ tendrá el nivel asintótico l — e. 

La relación (4) puede considerarse como la solución aproximada de la 
ecuación del número c. para el cual a, (6,.,) = e. 

Pongamos, para precisar, inc = —an + Moivn y hallemos, para el c 
elegido, el comportamiento asintótico de la probabilidad del error de segun- 
do género: 


an(de) = Pz (21 < inc) = P, (> y < —an + dor Ya) = 


fm f(w=1 
=P, (7 2 (mi — b) < (a + biVn/az + de0/02). (5) 


Como —(a + b)Vn/oz + »do/o, > — o cuando n > «o, aquí la aplica- 
ción del teorema central del límite sólo nos da que az(6:) > O. 

El problema de cálculo del comportamiento asintóticamente exacto del 
segundo miembro en (5) conduce al problema de las probabilidades de 
grandes desviaciones para las sumas de variables aleatorias yy. 

Presentemos aquí los resultados de las probabilidades de grandes des- 
viaciones, expuestos en el $ 5 del capítulo 7 [11]. Supongamos que es necesa- 

rn 


rio calcular el comportamiento asintótico P [ 5; ¿; > x | cuando n — oo, 
i 


x > co, donde É£, son independientes y están igual distribuidas. Admitamos 
que la distribución ¿; tiene una componente absolutamente continua y que 
YO) = Me* < co 

para ciertos A > 0. Supongamos, además, que 


Ay = SUP ÍA: YA) < 0], (6) 
A(o) = inf (ad + InvO)], 


y que A(a) es el valor de A con el que se alcanza este inf (-). 

Entonces, es válida la afirmación siguiente. (Véanse los teoremas 9 y 
10 del $ 5 del capítulo 7 (11). Las condiciones DE, = 1 y ME; = O que figuran 
en estos teoremas no desempeñan ningún papel). 


x — nMÉ, 


Teorema 1. Supongamos que = vw» de modo que 


lim supÁ <a, - A. 
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Entonces la ecuación 
av) = y QA) (7) 
para el punto Ma) tiene, cuando a < a, la única solución, 


> 1 EN 
Pp (: : > x) a (0 Mo) 12 exp [—nAto)), ($) 
donde 


3% - Y 0) _ 2 
AOS 


Además, son válidas las relaciones 
MME,) =0, A'(a) = Aa), 


Ya) - APA" 


Volvamos ahora al cálculo del comportamiento asintótico de la magni- 
tud a>(3,) definida en (5) e igual a 


P, (- 2 > an — ya) = P, (E Enu+D> (+1 y11) 


cuando y = ».01. Para hacer uso del teorema expuesto es necesario poner 


b= —79u= Ino , X=an — yvn. 


Entonces, cuando 0 <A < 1, obtenemos 
YO) = Mie = [AIMAR = 


= [AR *outeo < [nc] (jaca) =1 


De aquí asimismo se deduce que y(A) también será finito en cierto en- 
torno del punto A = 1 si 


[AOJICVACO aldo) < co (9) 
para cualquier y > 0. Luego, la ecuación para el punto A(o:) tendrá la forma 


a+ YN - 
+“) 2 


o bien 


VO m AAA la) = 


= a COMICOACO) pla). (10) 
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Sia=a= 0Pr Pa = [4001 


cuando A = 1. Esto quiere decir que 


Aa) =1, yA(a) = YU) = 1. 


De aquí se desprende que 


(dx), entonces (10) será satisfecha 


A(a) = aX(a) — InyA(a)) = a, 


2 
y" 0) = Y" = oa aldo, 


(a) = y” (1) - a? = of, 
A'(a) = Ma) = 1, A” (a) = oy ?. 


Las condiciones del referido teorema se cumplirán si 


1) la P>distribución de In E tiene una componente absolutamente 
continua, 

2) AI CI/ACOY” (dx) < eo para cualquier y > O. 

Teniendo en cuenta que en nuestro caso las funciones oía), A(a), A” (a) 
son continuas en el entorno del punto «az = a y que a: = x/n = a — y/vh, 

E A 1 

obtenemos Ala) a 7 + 20 + 0 8 A 

Por lo tanto, ahora podemos enunciar el siguiente corolario del teorema 
citado. 


Corolario 1. Supongamos que se cumple la condición (9) que la 


a X).. 
Prdistribución de ln AC) tiene una componente absolutamente continua. 


f2(x1) 


Entonces, cuando n — co, 


ar(6.) = Pz ( Sm > an — »Yñ) — 


la1 


E — exp (na + yVa - y/Qodl = 


01 2xn 


1 
oi 2xn 


exp [—nqr(Pr, P2) + MoVn — N/2]. (11) 


20— 8030 
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Ahora bien, a2($.) decrece exponencialmente” cuando n — oo. 

No es difícil ver que si tomamos un c registrado en (1), ambas probabili- 
dades a1(0:) y a2(ó) decrecerán exponencialmente, al igual que el valor 
de ag(59) para cualquier Q registrado. Como 


A 
mer LES) aldo = Ya — y, 


mín yQ) = mín y( —», 


entonces a (6:) y a2(5,) decrecerán con igual velocidad (su dependencia de 
n será la misma). Esto quiere decir que el criterio minimax corresponderá 
a cierto c registrado, cuyo valor aproximado se determina fácilmente resol- 
viendo la ecuación «1 (0) = a2(5:) y utilizando el análisis asintótico del se- 
gundo miembro (8) cuando a = c/n, n — oo, 

La aproximación exponencial (11) actúa bastante bien con grandes n 
siempre que la desviación normalizada 


A (Rs, Pa + eta, PO) A ( 


también sea grande (véase la enunciación del teorema). 

En los problemas aplicados, donde el número » está limitado por valo- 
res del orden de 100, esta condición se cumple rara vez y el valor de (13) 
a menudo resulta comparable con 1. Esto dificulta la utilización del referido 
enfoque del cálculo de «a2(5:) y corresponde a la situación en que el valor 
de a2(5,), junto con a (de), no es muy pequeño (tiene una magnitud compa- 
rable, digamos, con 0,1). Al mismo tiempo, los valores de n del orden de 
100 son completamente suficientes para la aplicación satisfactoria del teore- 
ma central del límite en la zona de “desviaciones normales”. 


* A la vez hemos obtenido la posibilidad de dar una definición más de la distancia de 
Kuliback — Leibler: 


eXPr, Pa) = — Um 2 Inoa(8) = — Um > inf ln ont). 
n- n-« 71 dk. 


Con arreglo a esto se puede señalar Que ese mismo orden de pequeñez exp 1 — 1g(P,, Pa) 
es propio de la P2-probabilidad de que la función em pírica de distribución F; vaya a parar 


al entorno de la función de distribución F, correspondiente a P,. Mejor dicho, si 5 = 5(n) — 0 
bastante lentamente, entonces 


— lim — In PalsuplFRO0) — Fi)! < 6) = extPr, Pa) (12) 
AN 3 

(teorema de Sanov). Por consiguiente, la distancia q,(P,, Pz) tiene un sentido probabilístico 

profundo. Superando ciertas dificultades, el lector puede obtener (del teorerna 6, $ 2, capítulo 

V en [11)) la demostración de la relación (12). 
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Abora bien, la cuestión que nos interesa consiste en saber cuando pode- 
mos usar las aproximaciones normales 


a1(80) = P, (ramo) 1-0 E). 


01VR 
der 


az(6:) = Pz 02 y < In c) - $ A — E) (14) 


qn 


a fin de calcular ambos valores de «1(06,) y a2(0.). 

Para fundamentar las fórmulas (14) surge otro enfoque basado en la 
suposición de que las hipótesis H, y H2 son próximas. 

3. Hipótesis próximas. Aquí examinaremos la muestra X en el esquema 
de series y estimaremos que las distribuciones P, y Pz dependen de nr de 
modo que 


er(P,, P2) + 01 (Pz, Pp) —>0 (15) 


cuando n > co, y la sucesión (13) converge hacia el límite positivo finito. 

Para facilitar los razonamientos y hacerlos útiles en la exposición ulte- 

rior, aquí nos limitaremos al caso paramétrico cuando Y € P. 

= (6 = 01], Ha. = (6 = 02), 
y la familia (Ps) satisface las condiciones de regularidad (RR) (véase el 
$ 2.24). 

Hagamos primeramente algunas observaciones no formales que expli- 
can la esencia de la cuestión. Examinamos las hipótesis próximas, o sea, 
supongamos que 0, = 9, + ¿, donde ¿ es pequeño. En este caso, el logarit- 
mo de la relación de verosimilitud, a base del cual se construye el c.m.p., 
puede representarse en la forma” 


fe (X) 
1 = 5L'(X, 91). 16 
n FO ( 1) ( ) 
La estadística U = L'(X, 01), es decir, la parte principal en (16), es llama, 
a veces, aporte eficiente. Si la+hipótesis 4, es cierta, entonces 


Mo U = O, D. U = nI(0,). 
Como 


L'(X, 01) — L'(X, 62) — 6L“(X, 62), MoL”*(X, 02) = —n1(62), 
entonces 


Mo, U — ón1(02) — ó6n1(01), 
D,,U — nI(02) — nI(01). 
El signo —, aquí utilizado, significa la equivalencia asintótica cuando 3 > 0. 
20* 
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Esto quiere decir que las distribuciones de U para las hipótesis H, y Ha 
y para grandes n serán distinguibles siempre que la magnitud Mo, U - 
— MU - ón1(0,) sea mucho mayor que VD, U — V/n1(61) o comparable 
con ésta. En otros términos, debe cumplirse la igualdad ón = vvh, v 0, 
o bien, que es lo mismo, $ = v/va. 

Así pues, pasando a una exposición más exacta, supongamos que 


07 = 01 + v/va, (17) 
donde consideraremos registradas las magnitudes 6, y v. 
Siguiendo las designaciones del capítulo 2, pongamos 


ZO) = ed , Yu) =InZ, (2): 


Entonces 


: _ 1, Ze tx) 
271 A A] = Y¡(u) = —Y2(—u). (18) 
En virtud del teorema 2.29.3 para X € Po,, tenemos 
Y, (0) = Exv — 7 v"U(0)) + en), (19) 


donde £, a O, ET” *12(01) € $, 1. Análogamente, para X € Po, 
e 


— Yal—v) = fav + > vz (2(63) + 69) 
donde En ->0, ET” “?(02) € Lo,1. 
% 
Como (02) — 1(61), obtenemos que para la hipótesis H,, j = 1, 2, 


2 
Y ma Elo VTE) + (DL 100, E € Lo, 
dut 
Esto significa que del teorema 2.29.3 se deduce el 
Corolario 2. Supongamos que se cumplen las condiciones (RR), (17). 


Entonces, para cualquier c registrado son válidas las fórmulas (14) o bien, 
más exactamente, 


y 1601) + Inc 
6: = Po ( l =>1- ó 
o1(6c) 0 2 m>inc + ey” 


A (20) 
En > 1(01) + Inc 


c(4) = Pa ( 2 m< ne => 09 AJOS . 
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Definición 2. Los criterios r, y *2 se llaman equivalentes asintóticamen- 
te si 


lím sup lay(x1) — ay(xr2)! =0, Jj =1, 2. 
n=» 00 


El criterio r se llama criterio asintóticamente más potente (c.a.m.p.) si 
el mismo es asintóticamente equivalente al c.m.p. 

En vista de que en las representaciones (18) y (19), E, = L'(X,0Yn”7*?, 
de éstas se deduce que el criterio ó, con la región crítica 


LX) a d= v?I(0) + 21nc 


(aquí tiene importancia el signo de uv) tendrá los mismos valores límites 
ai($) que el criterio $. y por consiguiente, será el c.a.m.p. 
Además, en virtud de los resultados del $ 2.29, 


En = L'(X, 0Y/Vn = (0* — O)VATODOA + en(X, 01). 


en(X, 01) = O. De aquí resulta que el criterio con la región crítica 
s 


v(Ó* — 6,1), Vn1(61) > ud, (21) 


también será el c.a.m.p. 

Para obtener el c.m.p. 6, de nivel asintótico 1 — e, es suficiente en (20) 
poner d = ».. La probabilidad del error de segundo género «2(5¿) conver- 
gerá hacia $(—vYV1(0,) + A). 

Para c = 1 ambos límites en (20) tendrán el mismo valor: 


Um ay(8.) = P(— o VI(0)/2). 


En este caso, el criterio 6. (compárese con el teorema 1.2) es natural llamarlo 
asintóticamente minimax. 

4. Comparación de los enfoques asintóticos. Ejemplo numérico. En los 
apartados 2 y 3 hemos examinado dos enfoques asintóticos (cada uno de 
los cuales está justificado en determinadas condiciones) que permiten indi- 
car los valores aproximados de las probabilidades de los errores de primero 
y segundo género del c.m.p.* En el caso de hipotesis registradas, estas fór- 
mulas se dan en (3) y (11), y en el caso de hipdtesis próximas, en (14) y 
(20). Las fórmulas (11) y (20) son una aproximación secundaria en compa- 


% Nótese que a la par con los dos enfoques propuestos se puede examinar un espectro 
entero de casos intermedios, los cuales en el lenguaje paramétrico pueden representarse en 
la forma (compárese con (17)) €) = 60, + 21" 7,0 < y <« 1/2. Las hipótesis próximas de tal 
género representan interés al seleccionar las fórmulas aproximadas que reflejan lo más cxacta- 
mente una situación concreta dada. 
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ración con (8) y (14), por eso es necesario, en la medida de lo posible, dar 
preferencia a estas últimas. 

Ya hemos señalado que para pequeños valores de a, (6), «2(5) (digamos, 
del orden de 0,01 y menos) conviene más utilizar el enfoque relacionado 
con las hipótesis registradas. Aquí es importante tener una precisión relativa 
de aproximación bastante buena, la cual es asegurada por las fórmulas (8) 
y no es garantizada por el teorema central del límite. No obstante, si «1 (5) 
y a2(5) son comparables con 0,1 (digamos, > 0,1), se puede recomendar 
el segundo enfoque, considerando la segunda hipótesis dada H, = (0 = 
= 92] como un elemento de la sucesión de las hipótesis próximas Fa, = 
= (0 = 0, + v/vn), donde, evidentemente, es necesario, para 9, y 62 dados, 
poner v =Vn(62 — 91). Como los valores a,(6) y a2(6) esperados no son 
muy pequeños, el valor absoluto de v/Y1(9:) no debe ser grande. 

Ejemplo 1. Citemos ahora un ejemplo numérico que ilustra, en cierta 
medida, la relación existente entre los dos métodos de aproximación pro- 
puestos anteriormente. 

Supongamos que XE TP ,, O sea, que x; tienen una densidad 


SAx) =0 7%, x>0, 


y la hipótesis fundamental A, tienen la forma H, = (9 = 1). En calidad 
de alternativas examinemos las hipótesis simples 43? = (0 = 0,5), HP = 
= (0 = 0,8), HP = (0 = 0,9). 

Basándose en la muestra X, la hipótesis Ff, se verificará frente a una 
de las hipótesis HP, j= 1, 2, 3. Ahora bien, aquí 0, = 1, y para 62 hay 
tres variantes: 92 = 0,5, 0, = 0,8 y 62 = 0,9, las dos últimas de las cuales 
trataremos de examinarlas como correspondientes a las hipótesis “próxi- 
mas” a H¡. Realicemos el cálculo de los criterios para las muestras de volú- 
menes nr = 30, 100, 300, 1000. 

En nuestro caso 


¡e 0) _ ect 22 
y = In > In 02 — (02 — 1)x;, (22) 
(0, x)=1-X;, (23) 

És 1/x. 


De aquí resulta que el c.m.p. %;, así como ambos c.a.m.p. examinados ante- 
riormente (con regiones críticas en forma de 


Dl (xi, 09 < dh y 6-0, < d/(n1(00), dí = dYnI (01), 
tendrán el aspecto: ¿(A) = HfY si 


2 (u—-1D>d. (24) 
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Si X€ET, 1, (hipótesis AH), entonces 
Myúy= 1 Dix =1=/() = Mall (1, DI? 


Por lo tanto, si ponemos d, = 2Yn, entonces (compárese con (14)) 
A 


até) =P, (Du 1> 41) = 


i=1 


=P, € 20 -1)>2) > 1- (2) =0/023 (25) 


A A 
cuando r => o. Como en nuestro caso Y) y; = ninG; + (1 — 02) Y) xu, 
im] O | 


¡ 
entonces Inc en (14) (o en (20)) está ligado a d, mediante la relación 
Inc = r(1n92 + 1 — 02) + (1 - 02)d,. 


A continuación presentamos tres tablas. En todas d, se supone elegido 
de modo que se cumple (25) (o sea, d, = 2Vn). En la primera tabla se com- 
paran los valores verdaderos de «a1(5,) con la aproximación (25). En la se- 
gunda tabla se dan los valores verdaderos de la probabilidad del error de 
segundo género a2(0:) y de la aproximación para a2(5¿), obtenidos por las 
fórmulas de las grandes desviaciones (8). En la tercera tabla se comparan 
los valores verdaderos de az (6.) con las aproximaciones obtenidas por las 
fórmulas de las hipótesis próximas (14). Nótese que aquí utilizamos las 
aproximaciones (8) y (14) sin hacer uso de las aproximaciones secundarias 
(11) y (20) que contienen errores adicionales. Todos los cálculos necesarios 
se exponen más adelante. 

Los números en las tablas 1—3 se dan con una exactitud de hasta dos 
cifras significativas después de la coma. 


Tebla /. Valores de «,(5,). Renglón supe- Tabla 2. Valores de ar(6.). Renglón superior: va- 


rior: valores verdaderos; reaglón inferior: lores verdaderos; renglón inferior: valores aproxi- 
valores aproximaciones (14) maciones (8) o (26) (grandes desviaciones) 


0,031 | 0,028 | 0,026 
0,023 | 0,023 | 0,023 
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La comparación de las tablas 2 y 3 muestra que de acuerdo con las 
observaciones hechas anteriormente, la aproximación basada en grandes 
desviaciones actúa mejor en la parte derecha superior de la tabla (donde 
(01 - 6) YVn = (1 — 61) Vn > 3), mientras que la aproximación basada en hi- 
pótesis próximas actúa mejor en la parte izquierda inferior de la tabla (don- 
de (1 — 6) Vn < 3). Las rayas en las tablas están puestas allí donde la 
aplicación del referido enfoque no tiene sentido (en la tabla 2, por ejemplo, 
la aproximación (8) no se aplica en todos los casos cuando «az2(6,) > 0,1). 
El cálculo de a2(6,), cuando este valor es, digamos, menor de 107“, rara 
vez tiene sentido práctico. En la tabla 2 hemos calculado valores muy pe- 
queños de «2(6:), cuando 82 = 0,5, n = 300, 1000, únicamente a fin de com- 
parar los resultados de los cálculos. 


Tubla 3. Valores de axr(8). Renglón superior: valores verdaderos; 
renglón inferior: valores aproximaciones (14) (hipótesis semejantes) 


18-107? 


0,5 
33-107 * 
0,8 12-107? 
0,085 


0,086 


Para acabar con Jos comentarios dedicados a las tablas, es preciso explicar cómo hemos 
calculado los valores verdaderos ay(6;), ¿ = 1, 2 y en qué se transforman las aproximaciones 
(8) y (14) en nuestro caso concreto. 

El valor de a2(4.) es igual a 


az(8.) = Po, $ 0-1 <av5). 


lol 


Como Max: = 1/0,Do,x; = 1/04, la aproximación normal (14) para a2(8,) tiene la forma 


02 1 
o € [6 - 5)" + 205 |) = D((6, — 1)Vn + 263). 


Examinemos ahora la fórmula (8) en la que en nuestro caso es necesario poner f, = x, 
x= -n — 2vYn. Aquí, la condición del teorema 1, 


62 


x-—nMt  —n- 2vYa + n/0, 1-6 
YA Ya 5 ( ) ds 
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se cumple. Seguidamente, 


:S es -) 
YO) = Moe > 62]. A a E, 
0 


A +0 
a a 
A 
2 
==a-1-—=. 
o va 
Como lím a = —1 <O0, la condición lím supi<a, también se cumple. 
qn— no n 
En nuestro caso la ecuación (7) tiene la forma 
ad B 


= 


A + A + ay” 
y su solución es A(a) = —l/a — 62. De aquí hallamos 
Ma) = -In—0«%) - 1 - 09, oa) = 1/A' (a) = dl. 
Ahora bien, en virtud de (8) obtenemos 


ar(8) = Pa (Su>») = Pa (Sa y <205) - 
l»1 í=mi 


1 
(1 + 09) V2 rm 


Suponiendo aquí « = —1 - 2v1, obtenemos las fórmulas con las que hemos calculado Jos 
valores de az(ó.) en la tabla 2 (renglón inferior). 

Señalemos, para comparar, que el segundo miembro de (11) en nuestro caso se transforma 
en la expresión 


exp (a(ln (- 083) + 1 + a8,]). (26) 


aaa AICA Ae] (27) 


que puede ser obtenida de (26), sustituyendo allí a = —1 — 2/Vn y eliminando, después del 
desarrollo en serie, los términos del orden de 1vVn y superiores. 

En el denominador (26), e) primer factor igual a o(a)lA(a)! a 1 + ad = 1-6 -— 
= 28,/vVn se sustituye en (27) por 0, = 1 — 6,.Sji6 es próximo a 1, el error relativo, relaciona- 
do con el sumando de corrección —262/VYn, puede resultar considerable. Por ejemplo, para 
9 = 0,8, n = 100 obtenemos 262/Vx = 0,16, 0, = 1 — 6 = 0,2, o(a)iMa)! = 0,2 — 0,16 = 
= 0,04, así que el primer factor en (27) es $ veces (!) mayor que en (26). Este ejemplo muestra 
Que en el caso de hipótesis semejantes, cuando el factor o, en (11) es pequeño, las aproxima- 
ciones (11) o (27) deben utilizarse con mucho cuidado. 

Para calcular los valores verdaderos de as(4,) hemos usado el hecho siguiente. Sea n(1) 
e] proceso de reconstrucción (véase [11)) para errar a saltos X,, Xz, ..., O sea, 


k 
(0) = mín (+ Eu. 
l=1 


En este caso, si xy € T'.,, entonces, como hemos mostrado en el $ 4 del capítulo 13 


314 CAP. 3. TRORÍA DE VERIFICACIÓN DB HIPÓTESIS 


111), el proceso E(1) = n(1) — 1 es, para 1 > 0, el proceso de Poisson con parámetro 0, o sea, 


- = = - 0 (00) 
PM) -1=k=e rr 


LJ 
Ahora señalemos que ( y , ¿| = (n(1) < n)] y, por consiguiente, 
1w] 


P, (>) e 0, (28) 


jul k00 
Por eso cuando / =n + 2vn, 


ad) = P, (2u>)) - $ 51 a 


ks0, 

o 010 

ara (ue) 1 er 
tel k”-0 


Precisamente estas igualdades fueron utilizadas para calcular los valores exactos de ar(8.), 
fm 1,2. 
Nótese que a la par con (28) también se pueden escribir otras fórmulas para la distribu- 
a 1) 


ción de Y x, basadas en el hecho de que >; xa To. 
lei l=) 

S, Relación entre el c.m.p, y la eficacia asintótica de la ev.m. Utilizando los cálculos 
realizados y los resultados de los $$ 1 y 2, ahora podemos demostrar el teorema 2.25.3 de 
la eficacia asintótica de la ev.m. 9* en la claso £* de estimaciones asintóticamente centrales 
(la pertenencia de $” € K* ha sido establecida en el apartado (2.29.3). 

Demostración del teorema 2.25.3. Admitamos lo contrario, es decir, el hecho de que existe 
una estimación asintóticamente normal 0” tal que, para cualquier 0,, 


lirm Mo,n(0* — 61)? = a?(0,) < 17 *(6,) = Um Ma n(6* — 6,)?. 


neo An 


Examinemos el problema de verificación de la hipótesis Hr = (X € P»,] frente a 
Hi = (X a P,,Ó0 =0, + un” "?) y construyamos para esto el criterio 4 que tiene la forma 


siguiente: 
Hi si 0"<0, + un” *? 
EX) = 1 <€ 0 q 
Hi si 0" >9, + un A 


donde hemos tomado, para precisar, que v > 0, Entonces 
(9* — 8) Yn v v 
m P . -1/h Pp A cs pe] - 6 A, 
dd ( Sé) 5) (5) 
A continuación, la pertenencia de 9” € K” significa que 
ax(5) = Po(0* LO, + un” ??) = Po(0* < 6) — 1/2. 
Examinemos ahora otro criterio $9(X) con la región crítica 
6” - 6, > (v + Y/Va, y>0, 


$ 4, VERIPICACIÓN DE HIPÓTESIS COMPUESTAS 315 


que, como hemos establecido, será el c.a.m.p. (véase (21)). En vista de que cuando es bastante 
pequeña y > O, 


(v + yv 7(81) < v/o(61), 
para este criterio, 
lim (69) = 1 — P((v + Yi7(61)) > 1 — H(u/a(6,), 


lím ox(30) = lim Ps(0* < 9 + y/vVn) > 1/2. 


no 


Esto significa que a partir de cierto n, el criterio ó será mejor que el c.m.p. La contradic- 
ción obtenida demuestra el teorema. < 


$4. Verificación de las hipótesis compuestas. 
Clases de criterios óptimos, 


1. Planteamiento del problema y conceptos principales. En los $81 y 2 
hemos examinado los problemas menos complejos de verificación de las 
hipótesis cuando estas últimas son simples. Sin embrago, a menudo las hi- 
pótesis sujetas a verificación tienen una naturaleza más compleja. En el 
caso paramétrico, por ejemplo, la hipótesis puede tener la forma (X € Pp; 
0€ 01), donde 8, es un subconjunto dado del conjunto O. Evidentemente, 
tal hipótesis ya no define de manera unívoca la distribución de la muestra. 

Llamaremos compuesta toda hipótesis AH que no sea simple. 

Por ejemplo, las hipótesis (X € Po ¿:; 0 > 0], (X€ €. 1; a 20) son 
compuestas. 

Posteriormente en este capítulo examinaremos siempre los problemas 
relacionados con la verificación de dos hipótesis que designaremos por HH; 
y H2. Además, en los párrafos inmediatos nos limitamos a estudiar el caso 
paramétrico X E Po, 0 € O. En este caso, las hipótesis H, se pueden escribir 
de la forma siguiente: 


H, = (X€ P»,; 0€8,]), 6:C 8, 61NO: = Y. 


Como los demás valores de 0 que no pertenecen a 9/U6, no se exami- 
nan en general, entonces, sin limitar la generalidad, podemos considerar 
que 9 = 8/U8, y que HZ, es una hipótesis adicional (o contraria) a H,, 
así que la hipótesis Ha también puede ser escrita en forma de Ah = (H, 
no es cierta). Al igual que en el $ 2, una de las hipótesis será llamada funda- 
mental (en este caso es H,), y las hipótesis simples Ho = (YX G Ps), 0€ O, 
se llamarán alternativas. 

La separación de una hipótesis fundamental entre todas las demás, a 
menudo refleja la actitud del investigador hacia el objeto de estudio. La 
hipótesis fundamental suele corresponder a cierta concepción, y la alterna- 
tiva, a las desviaciones de ésta, cuya presencia ha de ser demostrada o 
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rechazada. Por regla general sólo hay una o un pequeño número de hipóte- 
sis fundamentales y una gran cantidad de hipótesis alternativas. 

El procedimiento de admisión de las hipótesis se basa en el criterio esta- 
dístico. Como sólo examinamos dos hipótesis, entonces, al igual que en 
el $2, todo criterio (randomizado) ” será univocamente definido por la 
función medible r(), 0 < (0) < 1, la cual determina la probabilidad de 
aprobación (X) de la hipótesis Hz para cada muestra X (la realización 
de la elección aleatoria con probabilidad T(X) debe llevarse a cabo con 
ayuda de un dispositivo adicional). Al igual que en el $ 2, la función r(x) 
se llama crítica. Para el criterio no randomizado ó, la función (xr) = 5(x) 
sólo adopta dos valores: O y 1; la región (M2 del espacio 2”, en la que 
5(x) = 1 (región de admisión de Fl»), en este caso se denomina región crítica 
y a menudo se identifica con el criterio ó. 

Definición 1. Se llama dimensión o probabilidad del error de primer 
género del criterio r el número 


as(r) = sup Mo r(A4). 
9, 


Es evidente que para los criterios no randomizados, 
a1 (0) = sup Po(X € 0). 


Esta es la máxima probabilidad (respecto a 9 € 91) de rechazar la hipótesis 
H, cuando ella es verdaderamente cierta. Por lo general, para facilitar las 
búsquedas de los criterios óptimos se examinan los criterios * que satisfa- 
cen la condición 


aj(r) =e (o ar(x) < e). 


Designemos por K, la clase de tales criterios. 

Llamaremos nivel (de significación)” del criterio * el número 1 — 
- ar(r) = 1- e. 

La utilización del criterio 6 € K,, estadísticamente significa que en una 
larga serie de experimentos para verificar la hipótesis H, con ayuda del 
criterio 5€ K., no nos equivocaremos más a menudo que en una porción 
de casos £, si realmente era cierta la hipótesis H,. 


” Con frecuencia se llama nivel de significación el número e, y no el 1 — e, Pero esto 
es algo perverso: pues es natural considerar que cuando más alto sea el nivel de significación, 
tanto más “significativo” será el criterio. Partiendo precisamente de estas consideraciones he- 
mos definido el uivel de significación (o de confianza) para los intervalos confidenciales. Co- 
mo entre los criterios estadísticos y los intervalos confidenciales existe una relación directa 
(véase el $ 8), no sería razonable cambiar esta terminología (al pasar a los criterios) por una 
contraria. 
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La elección del nivel de significación del criterio es, en gran medida, 
arbitraria. En calidad de e se elige, de ordinario, uno de los valores estándar, 
tales como 0,005, 0,01, 0,05, 0,1. Esta estandarización tiene la ventaja de 
que permite reducir el volumen de las tablas que el estadista utiliza en su 
trabajo. No hay ninguna otra causa especial para escoger precisamente estos 
valores. Eligiendo el nivel de significación del criterio r, es necesario prestar 
atención a la potencia del criterio 

Br = Mor, 0€0. 
Si ésta resulta demasiado pequeña, conviene, tal vez, sustituir el nivel l — e 
por uno menor. 

Nuestra actitud hacia la hipótesis antes de realizar el experimento es 
una circunstancia importante que puede influir en la elección del nivel de 
significación. Si creemos firmemente en la veracidad de la hipótesis (la pro- 
babilidad a priori C(H,) en el planteamiento bayesiano del problema es 
grande), se necesitarán pruebas convincentes contra ella para que renun- 
ciemos a nuestra seguridad. En estas condiciones hacen falta criterios de 
alto nivel, y e se elige muy pequeño (entonces, la toma de un valor pertene- 
ciente a M2 será demasiado inverosímil si es cierta HH). 

Aquí se utiliza la misma concepción que hemos expuesto al construir 
los intervalos confidenciales. La misma consiste en lo siguiente: si la proba- 
bilidad e de cierto suceso 4 es pequeña, consideraremos prácticamente im- 
posible el hecho de que este suceso ocurra al realizar una sola prueba. 

Entre algunos especialistas de estadística matemática también existe 
otro punto de vista, el cual radica en que no hay necesidad de asignar un 
nivel de significación fijo y que para su elección preliminar no hay una 
regla razonable. Ellos consideran la verificación de las hipótesis no como 
un procedimiento que conduce obligatoriamente a la aprobación de una 
de dos hipótesis, sino como cierto proceso que se desarrolla en la conciencia 
del investigador y que determina la actitud de éste hacia las hipótesis. Desde 
este punto de vista, al número de significación registrado se le puede ante- 
poner el nivel “'realmente alcanzable” que se determina del modo siguiente. 
Examinemos la familia de criterios no randomizados ó de nivel l — £ cuan- 
do e recorre los valores del intervalo (0, 1), y designemos por 0, la región 
crítica 6, suponiendo que 2 c Mo. cuando €» < eg. 

Definición 2. Llámase nivel realmente alcanzable de la familia de crite- 
rios 6 en la muestra X, la variable aleatoria 1 — £(X), donde 

E(X) = inf (e: Xe€ Q).)- 

Cuanto mayor es 1 — e(X) tanto más fuertemente testimonia la muestra 
contra la hipótesis H,. 

El valor e(X) da la posibilidad de aceptar o rechazar la hipótesis para 
cualquiera que sea el nivel 1 — e dado de antemano, mediante la simple 
comparación de e(A) con eg. 
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Ejemplo 1. En el párrafo anterior hemos construido el c.m.p. para veri- 
ficar la hipótesis A, = (X € T,,1) frente a la hipótesis Hz = (X € T,,2,1). 
Este criterio tiene la siguiente región crítica: 


M = rez”: » Qu »> a]. 
l1 


¡o UPpongamos que para la muestra X de volumen n = 10 ha resultado 
> xy = 18. Como para la hipótesis H, y xET,, y Tinta, b) = 


= "Har((2a, 2b)), entonces Py, 10((18, 00)) = Ha (G6, 00)) = 0,0154 (véanse 
las tablas IJI Ó [8], y el nivel que en este caso se alcanza realmente será 
igual a 1 - e((O) = 1 — 0,0154 = 0,9846, así que la hipótesis H, será recha- 
zada por el c.m.p. de nivel 1 — e = 0,98 y no será rechazada por el c.m.p. 
de nivel 1 — e = 0,99. 

2, Criterios uniformemente más potentes. Volvamos a examinar los cri- 
terios randomizados arbitrarios r que hemos acordado designarlos por la 
función crítica r(x) x€ 2” (La función r (c) también se puede llamar fun- 
ción estadística (randomizada) de decisión). 

Si existe una estadística suficiente S(A), entonces es posible limitarse 
a los criterios r(X) que dependen de X sólo por la estadística suficiente 
S(A, o sea, por los criterios representables en la forma r(A) = e(S(A)). 
Pues sabemos que toda la información sobre el parámetro desconocido está 
concentrada en S, y la utilización de otras estadísticas (otra información 
sobre la muestra X) no tiene sentido. 

Como ya hemos señalado, para determinar los criterios óptimos, se re- 
duce, de ordinario, el conjunto de criterios que se examinan, hasta la clase 
K. de los criterios de nivel registrado. Entre ellos se puede tratar de hallar 
un Criterio tal, para el que la potencia 


Bx(0) = Mer (X) 


en la región 083 sea máxima (es decir, la probabilidad del error de segundo 
género 1 — Bx(0) debe ser mínima). Con otras palabras, ha de ser máxima 
la probabilidad de aceptar la hipótesis A cuando ésta es cierta. 

La función f,(9) = Myr(X) también suele llamarse función de potencia 
del criterio r. 

Definición 3. El criterio r” € K, se denomina criterio uniformemente 
más potente (cu.m.p.) en K., si para cualquier r € K, 


Bx.(0) > Br(0) para todos 0€ Oz. (1) 
Claro está que c.u.m.p. existe no siempre, ni mucho menos. Si tal criterio 


r” existiera, la función de potencia $..(0) para él en el gráfico permanece- 
ría más alta que cualquier otra función $.(0) en la región O, a condición 
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de que ambas funciones no excedan el valor e en la región €, (pues 
ar(x) = sup Br(0)), así que B,.(0) es la envolvente de la familia (8r(0)] 
0c0, 


en la región 0. 

Supongamos que 9, = (0,3), Mo, r*(X) = €. Entonces el cu.m.p. r” 
será, evidentemente, el c.m.p. de nivel 1 — e para verificar la hipótesis 
10 = 01] frente a la alternativa [0 = 02) con cualquier 0, € 82. Como cono- 
cemos la forma del c.m.p., de aquí surge el siguiente procedimiento natural 
de búsqueda del c.u.m.p.: lo encontraremos si resulta que en el problema 
antes planteado, acerca de la verificación de las hipótesis (0 = 6,] y 
[0 = 02), el c.m.p. no depende de 0. 

También es cierto lo contrario: si el c.m.p. de K, para verificar la hipó- 
tesis [0 =* 0,] frente a (0 = 62], 0, € 82 depende considerablemente de 0, 
esto significará que el cu.m.p. para verificar (0 = 0,)] frente a 0€ O no 
existe. 

Si la hipótesis Hz es simple (82 consta de un solo punto 0), el concepto 
de c.u.m.p. pierde parcialmente su sentido y se transforma en concepto de 
c.m.p. ordinario, o sea, en un criterio para el que en la clase K¿ se maximi- 
za Ma, Tr (A. 

Definamos ahora los criterios bayesianos y minimax para comprobar 
las hipótesis compuestas. 

3. Criterios bayesianos. Al comprobar las hipótesis compuestas distin- 
guiremos dos enfoques bayesianos. 

a) Enfoque bayesiano completo. Consiste en la suposición de que las 
hipótesis Hs = [X E Pa], 60€ O se escogen al azar, con una distribución 
a priori Q. Con otras palabras, en 8 = 0,U8, se registra cierta o-álgebra 
de los subconjuntos GS, 9, € €, O, € S, y Ó se considera como variable ale- 
atoría en el espacio muestral (9, €, Q). 

La distribución Q induce la distribución Q, en 68,, ¡ = 1, 2 y las probabi- 
lidades q; = Q(6 € O), así que Q = 310, + 9202. La hipótesis de que 
0 € O; se elige al azar, con una distribución Q,, la designaremos por Ho,. 

Definición 4. El criterio ro se llama bayesiano si es un criterio bayesiano 
correspondiente a la distribución a priori (q;, q2) para verificar dos hipóte- 
sis simples Ho, y Ho, (véase el $ 1). 

b) Enfoque parcialmente bayesiano. Aquí se supone que han sido dadas 
las distribuciones a priori Q; en 6O,, pero que faltan las probabilidades a 
priori q1, 92. En este caso se trata de la verificación de dos hipótesis simples 
Ho, y Ho, . 

Designemos, como antes, 

Ko. = (m sup Mox(X) < €] 
y pongamos ds 
Ki = (m Mar) < el, 
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donde Mo, designa la esperanza matemática incondicional de la distribu- 
ción en O; x 2”, engendrada por Q,; y Po. 

Definición 5. El criterio ro,.o, se llama bayesiano en K% si es el 
c.m.p. de nivel | — e para la verificación de dos hipótesis simples Hg, y 
Ho,. 
“si una de las hipótesis H, degenera en hipótesis simple (9, ó 82 unipun- 
tualmente), también degenerá la distribución respectiva. En este caso acor- 
taremos el índice en la designación ro,,o, y escribiremos rg, en vez de 
0.0, Si Oz = [62] unipuntualmente. 

La construcción de los criterios ro,,y, no presenta dificultades. Urtili- 
zaremos estos criterios como medio auxiliar para construir los c.u.m.p. y 
los minimax. 

4. Criterios minimax. 

Definición 6. El criterio 7 para verificar H, = (0 € 01] frente a A) = 
= (06€ 6,) se llama minimax en K. (en K?,) si 7 € Ks(T € Ke», y para él 
se maximiza 


inf Mor(X) = inf 8x(0). 
9602 009, 


Sería más correcto llamar este criterio maximín (se maximiza el míni- 
mo). Sin embargo, a pesar de todo utilizaremos el término único “'mini- 
max”, ya que el mismo conserva su sentido aún cuando se trata no de la 
potencia, sino de las probabilidades de segundo género. 

Los criterios bayesianos y minimax se examinan más detalladamente 
en el 59. Los párrafos están dedicados a la aclaración de las condiciones 
en las que es posible construir los c.u.m.p. 


$ 5. Criterios uniformemente más potentes 


En este párrafo examinaremos dos importantes casos particulares, refe- 
rentes al parámetro unidimensional 9 cuando se logra construir el c.u.m.p. 
También obtendremos un resultado útil en cuanto a la construcción del 
c.m.p. 

1. Alternativas unilaterales, Relación monótona de verosimilitud. Su- 
pongamos que la hipótesis fundamental A, consiste en que 9 < 0,, y la 
hipótesis alternativa A, en que 0 > 0,. Llamaremos unilateral tal hipótesis 
HI, a distinción, digamos, de la hipótesis Hz = (0 x 06,) (adicional a H, = 
[0 = 6,)), la cual es bilateral, puesto que admite desviaciones respecto a 
61 en ambas direcciones. 

Nuestra otra suposición consiste en lo siguiente. Supongamos que se 
cumple la condición (4p) y que existe una función T(x) tal, que para todos 
0, 0, 6 > 0o, la relación de verosimilitud 

fx) 


Falo de 
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es una función no decreciente (o no creciente) de 7(x). En este caso se 
dice que la familia (Pos) tiene una relación de verosimilitud mondtona. 

En vista de que T es una estadística suficiente, entonces f(x) = v(T(O, 
ORO, y la condición enunciada corresponderá a la relación y(7, D/Y(7; 
0%). Esta condición significa que para todos 0 > Us, y para cualquier d > O, 
ta desigualdad felx)/fe.(x) > d será resoluble en la forma 7(x) > c,(0, 
9, d) (o bien T(x) > Cn(0, 00, d)). 

Por ejemplo, las familias (P..1]) y [Po ,:] tienen una relación de vero- 
similitud monótona, ya que 


e = EXP fa — at9)nX — > (a? — cy, 


R 
So, (A) 1/1 1 2 
do. ¿00 5 ps 2 G Ñ 2) 24, 
y las desigualdades respectivas tendrán la forma (a > «o, Y > 0) 


X > calor, 00, d) = (a+ 0) + ¿2 (TOO =%, 


Date ento, 00, a) = HL ma (700 = Dx). 


im 1 jmi 

Muchas familias paramétricas del $5 2.2 también tienen una relación de vero- 
similitud monótona. En lo sucesivo, para precisar, consideramos que (61) 
es una función no decreciente T(x). 

Teorema 1. Sea 0 un parámetro unidimensional y supongamos que | Po) 
tiene una relación de verosimilitud monótona. Entonces 

1) En K. existe c.u.m.p. para verificar la hipótesis Hi, = [0 < 01) fren- 
te a la alternativa HH, = (0 > 01], el cual tiene la forma siguiente: 


l, si TODO >c<c, 
T(A)=3Pp si TA =c, (2) 
0 si TOO) <c, 
donde c y p se deducen de la condición 
Moa 7 (AX) = Po (TA) > €) + pPo (T(X) = C) = e. (3) 


2) La función de potencia B" (0) = Mer" (1) crece estrictamente en 0 
con todos 0 para los cuales fB*(6) < 1. 

3) Con todos 6) el criterio (2) es el c.u.m.p. en la clase K grs.) PAra veri- 
ficar la hipótesis H? = [0 < 00) frente a HS = (0 > 00). 

4) Para cualquier 0 < 0,, muestro criterio minimiza B(0) = Max(X) en 
la clase K.. 


21 —8030 
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Demostración. Examinemos primeramente las hipótesis simples (0 = 
= 01] y 10 = 62), 02 > 01. El c.m.p. para verificar estas hipótesis en la clase 
de criterios ”, para los cuales Mo, r(AX) = €, tiene, según el teorema 2.l, 
la forma (2), ya que la desigualdad Z(X) > d equivale a T(X) > c (en caso 
de la debida correspondencia entre c y d), donde las constantes c y p se 
deducen de (3) (compárese con (2.3)). Como los números c y p de la 
ecuación de forma (3) se determinan de un modo único, entonces también 
obtenemos que el criterio (2) será el c.m.p. en K¿.y,, Para verificar la hipó- 
tesis [9 = 6p) frente a [0 = 62), 02 > 60. De aquí y del teorema 2.1 (véase 
(2.4) resulta que $8 (02) > 8 (00). 

Como £*(0) no decrece, entonces 


Mor (X) <e cuando 050. (4) 


La clase K, de los criterios ” que satisfacen (4) está presente en la clase 
[: Mo, (A) = €). En vista de que el criterio (2) maximiza $(02) en esta 
última clase, también maximizará 8(02) en K,. Queda señalar que el crite- 
rio (2) no depende de ningún modo de 9, y, por consiguiente, las conclu- 
siones sacadas son válidas para cualquier 0, > 0,. Aquí pues, han sido 
demostradas las primeras tres afirmaciones del teorema. 

La cuarta afirmación se deduce de las tres primeras si éstas se aplican 
al problema de la verificación de la hipótesis Hí = (0 > 0,) frente a H3 = 
= (0 < 6,), para la cual el c.u.m.p. en la clase (II(X): MoIT(X) £ 1 - E, 
0 > 01] tendrá la forma IT”(A) = 1 — w*(X), y la función 1 — $*(6) = 
= MylT*(X) en máxima función de potencia cuando 0 < 0,. <a 

Una importante clase de familias de distribuciones que admiten la rela- 
ción de verosimilitud monótona es formada por la familia exponencial mo- 


noparamétrica (véase el $ 2.15) cuando la densidad f/(x) es representable 
en la forma 


Sex) = hx) exp (a(0)U(x) + V(0)). (5) 
En efecto, en este caso 


7 = 9 [(010) — 000) 2 UG) + nv) — V00)) 


(1 
y la relación de verosimilitud dependerá monótonamente de T(x) = 
a 


= ), U(x;) si a(0) — a(60) conserva el signo en todos 6, 00, 9 > o. 
[1 


Corolario 1. Supongamos que felx) tiene la forma (S), donde a (0) es 
una función mondtona. Entonces existe el c.u.m.p. xP? en la clase K, para 
la verificación de la hipótesis H, = 10 <0,) frente a Hx = [0 > 01). Si 
a (0) crece, este criterio tiene la forma (2) y (3). Si a (0) decrece, las desigual- 
dades en (2) y (3) se sustituyen por las contrarias. 
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Nótese que si se verifica la alternativa bilateral, por ejemplo, la hipótesis 
Hr = [0 = 6, ) frente a H; = (0 x 6,], entonces el c.u.m.p. para la familia 
exponencial (5) ya no existe. En efecto, admitamos, para abreviar, que a(0) 


crece y que P+-distribución de 7(X) = )) U(xi) para todos 6 es absoluta- 
det 


mente continua. Entonces, de acuerdo con el teorema 2.1, el c.m.p. para 
la verificación de (0 «= 0,) frente a (0 = 02) será no randomizado y tendrá 
la región crítica T(A) > csi 02 > 0,. No obstante, si 07 < 6,, la región críti- 
ca tendrá la forma 7(20 < c. Vemos que la potencia máxima en el punto 
62 se alcanzará con criterios muy diferentes en función del signo de diferen- 
cia de 62 — 61. Del teorema 1 se deduce que si tomamos cualquiera de estos 
criterios, por ejemplo, aquél para el cual r(X) = 1 cuando T(X) > c, en- 
tonces éste será el c.u.m.p. para todos 0 > 6, y a ciencia cierta no será 
tal para 02 < 6,. 

Ya hemos señalado que la situación de dos hipótesis simples en el teore- 
ma 2.1. del c.m.p. es, en cierto sentido, simétrica (el c.m.p. minimiza la 
probabilidad del error de segundo género a2(1) si ha sido registrado el valor 
de a1(x) y, al contrario, minimiza a: (7) si se ha registrado a2(7). En el 
planteamiento del problema de la verificación de las hipótesis compuestas 
no existe tal simetría. Con esta circunstancia está vinculado el siguiente 
hecho interesante. Acabamos de ver que para una familia exponencial no 
existe el cu.m.p. destinado a verificar la hipótesis H, = (0 = 0,) frente a 
H, = 10 + 0,). De las investigaciones realizadas es fácil comprender que 
no existe tampoco el c.u.m.p. para la verificación de la hipótesis (9, < 0 < 
< 02) frente a la alternativa (0 4(0162)). No obstante, si examinamos ahora, 
en calidad de hipótesis fundamental HA,, la H, = (0 ¿(0,, 02)), y en calidad 
de alternativa, la hipótesis Hz = [0 € (9,, 6,)), entonces el cu.m.p. en K, 
ya existirá. Así pues, vamos examinar ahora la segunda posibilidad cuando 
se logra construir el c.u.m.p. 

2. Hipótesis fundamental bilateral. Familia exponencial. 


Teorema 2. Supongamos que fe(x) se define por la igualdad (S) y que 
se verifica la hipótesis Hi, = (0 4(01, 023), 0, < 0», frente a la alternativa 
Hz = (04(0,, 02)]). En este caso si la función a(0) es monótona, 

1) en la clase K, = [w: sup Mor(A) < €) existe un c.u.m.p. x* que 

e 9H, 3) 
tiene la forma 


l, s ca<TO0O<cCa, 
a” (x) = Pr, si T(x) =( is 1, 2, (6) 
O, si T(x) ¿ lc, » ca], 
donde TO = Y, U(xD y las constantes c,, pi se deducen de las condiciones 
iwm1 


Mo, (X) = Mo, r (A) = e. (7) 
21* 
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2) Este criterio maximiza la función de potencia B(0) = Mer(X) a con- 
dición de (T) dentro del intervalo (01, 01), y la minimiza fuera de este inter- 
valo (véase la fig. 4). 

3) Cuando 0 < e < 1, la función 8" (0) tiene el máximo en cierto punto 
00 € (01, 02) y decrece estrictamente al alejarse 0 de O. a la derecha o a la 
izquierda. Además excluimos el caso cuando la distribución de T(X) está 
concentrada en dos puntos, o sea, cuando existen tales t,, t. que 


PATOS = 11) + Po(T(X) = £2) =1 para todos 0. (8) 
En las investigaciones que se realizan también es útil la afirmación si- 
guiente. 


Fig. 4. Forma de la fuación de poteacia 49) = Mor *(X) y B(0) = Mor(X) para el criterio 
arbitrario r € K. 


Lema 1. Las ecuaciones (7) para 0 < e < 1 son siempre resolubles con 
respecto a Ci y pi, i= 1, 2. 

La demostración de este lema se dará más tarde. 

Demostración del teorema 2. Escribamos la función de verosimilitud 
en la forma 


fol) = (Ne OTI, (9) 


donde, supondremos, con el fin de precisar, que a(9) crece estrictamente. 

Examinemos el siguiente planteamiento bayesiano del problema. Admi- 
tamos que se verifica la hipótesis fundamental “mixta” H, la cual consiste 
en que [6 = 6,] con probabilidad q, y [9 = 62) con probabilidad 1 — q 
frente a la alternativa Hp = (0 = 60], 90 € (01, 92). Supongamos después, 
que las probabilidades a priori de las hipótesis W y Ho son iguales a r y 
1 — r, respectivamente, Como las hipótesis XY y Fo determinan por comple- 
to la distribución de la muestra, ellas pueden considerarse simples y pode- 
mos hacer uso de los resultados del 5 2. En este caso el criterio bayesiano 
(designémoslo por r”) tendrá la forma 


A fe (A) r 
AR CEET 
*(0=+X4 pp, si RA) = (10) 


l —-r 


: p 
O, si RO) <>: 
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En virtud de (9) la desigualdad R(X) > r/(1 — r) es equivalente a la 
desigualdad 


c(91) ca(0,) - ar99)” _  2(02) SR 
9 y eo A o e AN Y 


Como a(0,) — a(00) < 0, a(02) — a(00) > 0, aquí el primer miembro es una 
función convexa de 7. Esto quiere decir que (11) se puede escribir en la 
forma 


€ < T<«G, 


donde c. = ci(q, r); los números c, < c> recorren, al variar q y r, todos los 
valores posibles. La función p(X) en (10) se supone igual a p, si T(M) = c, 
y psi T(X) = C2. 

Según el lema 1, habrá c,, ¿= 1, 2 (o bien, que es lo mismo, q y 7) 
y pi tales que (7) sea cumplida. Mostremos ahora, que la función r*(X) 
definida en (10) o, que es lo mismo, en 6, poseerá todas las propiedades 
enunciadas en el teorema 2. Lo dicho significa que ahora consideramos 
”r” simultáneamente como función de decisión para la verificación de H; 
frente a 2. Como el criterio rm? es bayesiano (para la verificación de H 
frente a Ho), entonces, para cualquier otro criterio ,, 


rigMo,1* + (1 — Q)Mo,7*] + (1 — r)Mo.(l — 7%) < 
< rlgMo,r + (1 — q)Mo,7] + (1 — Mei — m. (12) 
Por consiguiente, si el criterio r, a la par con *”, satisface (7), entonces 
Mo,” > Mo, T- 
Esto significa que en cada punto interior 0, € (61, 0), el criterio r” maximi- 
za la función de potencia 8(0) = Mo rr en la clase de criterios r que satisface 
(DM). Pero las condiciones (7) destacan una clase de criterios que es más 
amplia que K+«. Por lo tanto, 1? también maximizará £(0) en K,. En vista 
de que el criterio r? no depende de 60, el mismo será el c.u.m.p. en Kg. 
También cabe señalar que, en virtud del teorema 2.1, 
B" (60) = Mar” > 6 
y aquí la igualdad sólo es posible en el caso de que 
ao) + (1 DIA =$. (13) 


u” casi por doquier. 

De un modo absolutamente análogo podemos convencernos, con ayuda 
de (12), de que mr” minimizará Mo, r para Mo, 7, Mo, r registradas (aquí 
utilizamos las mismas consideraciones que en la demostración de los teore- 
mas del $ 1). 
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Mostremos ahora, que xr” minimiza £(0) fuera de (01, 62). Sea 0” < 0;. 
Sustituyamos en las investigaciones precedentes, los tres puntos (91, 00, 93) 
por los tres puntos (0*, 9,, 02) y notemos que para el nuevo problema, el 
criterio rr? volverá a ser bayesiano (pues su forma no depende de la elección 
de los puntos 6;, ¿¡=0, 1, 2) en la clase de criterios r para los cuales 
M¿.7 = $B*(0%), Mos = e. Pero, según la observación hecha anterior- 
mente, r* minimizará M,.” para Mo, y Mo, 7 registradas. Las primeras 
dos afirmaciones del teorema quedan demostradas. 

Demostremos la tercera afirmación. Nótese previamente que, utilizando 
la sustitución de las variables de integración, podemos escribir 


Po(T € A) = c(0) Al e OT Apdo = c(0) ¡ e Y yd, 
tx: JEA) 


rEA 


donde la medida y se define por la relación 


v(A) = hc)” (dx). 
lx: ao ) 


Esto quiere decir que la distribución 7' respecto a la medida » tiene densidad 
(véase también el lema 2.15.1) ge(£) = c(0)e*% y, por consiguiente, también 
pertenece a la familia exponencial. Luego, en virtud de la monotonía de 
a(0) se puede introducir un nuevo parámetro $ = a(0) sin modificar absolu- 
tamente el problema y sus condiciones. Por consiguiente, podemos conside- 
rar, sin limitar la generalidad, que a(6) = 6. En este caso las funciones 


- 1 
c(0) = je” (dol y 8*(0) = Mor” (X) serán, evidentemente, continuas. 


Admitamos ahora que la afirmación del teorema acerca del carácter del 
comportamiento de 8*(6) no es cierta. Entonces habrá tres puntos 
0” <89” < 0” para los cuales 


B*(0") = B*(0”) = BO”) = a El0, 1). (14) 


Hemos visto que ” maximiza $(0”) para las condiciones f(0”) = 
= fB(0”) = a, con la particularidad de que si no se cumple la condición 
que tiene la forma (13), entonces $*(0 ” ) > a. Pero en nuestro caso la igual- 
dad (13) quiere decir que 


Le: Se- c(0”) 


dde bir ca A O) gló097 = 1 
e” . 


c(0”) 


»-casi por doquier. En virtud de la convexidad del primer miembro respecto 
a 7, esta igualdad es posible no más que para dos valores de 7. Por lo tanto, 
si (8) se excluye, entonces B%(0") > 6*(0") = a, y (14) es imposible. < 
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La demostración del lema 1 se llevará a efecto suponiendo simplemente 
que la distribución 7(X) es continua, o sea, que P+(7 = c) = O para todos 
9 y c. Esto nos liberará de complicaciones poco importantes. En este caso, 
en virtud de las observaciones hechas al final de la demostración del teore- 
ma 2, podemos escribir 


Mor (X) = PulTE(ci, 02) = | geí0r(do = e(8) | evan. 


Esta será una función continua de 0, c,, <>. 
Designemos por c, el valor de c para el cual P.(T<Cc,+)=1- £. 
Entonces, en (— «o, c,) estará definida una función d(c) tal, que 
d(c) 
Po(T€(c, dc) = | geltv(dí) = e. 
Cc 
Naturalmente que d(c) es una función continua creciente. 
Demostraremos la afirmación requerida si nos convencemos de que la 
función 


d(c) 
y(c) = Pol T € (c, díc)) = gs (0) v(dt) 


crece continuamente, y(— 00) < e, Yv(c+) > e. En este caso existirá un va- 
lor de co tal, que Y(co) = € y, por lo tanto Po (co, dí(co)) = E, ¿= 1, 2. 
La continuidad de y(c) es evidente. Demostremos ahora la monotonía. 
Escribamos y(c) en la forma 
dic) 
vc) = | getoOr(v(de), (15) 
e 
donde r(t) es la densidad de la P+,-distribución de T respecto a la 
P, -distribución: 


cl01) ¿co,- 01 
c(01) 


Supongamos, para precisar, que Á es tal, que c + A < dí(c). En este ca- 
so, como 


r(0 = 


c+A d(c + Aa) 
¡ gstOr(do) = | 20,(tvtdr), (16) 
entonces j j 
d(c + 4) ce+a 
Uc+a)-U)= [ gorra) — | geloriovido > 


2 [r(d()) - rc + JA > 0, 
donde A es el valor general de la integral (16). 
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Ahora nos convencemos de que y(— 00) < e. Designemos por to la solu- 
ción de la ecuación r(£) = 1. Si d(— 00) < fo, entonces r(f) < 1 en el interva- 
lo (— «o, d(— 00)), y la igualdad requerida es, en virtud de (15), evidente. 
Si d(— 0) > fo, entonces, de un modo análogo obtenemos 


y(— wo) = 1 — Pol T € (d(- 00), 00)) < 
<1- Po (Te (d(- 00), c0)) = Po (T € (— 00, d(- 00))) = e. 


Exactamente igual se establece que y(c,) > e. «< 

Observación 1. Le dejamos al lector que el mismo se convenza de que 
para 0, < 0» la afirmación del teorema 2 y todas las investigaciones realiza- 
das serán válidas si sustituimos el intervalo (0,, 02) por el segmento |[0,, 
62], o sea, si verificamos la hipótesis 4; = (0 € [01, 021) frente a HH; = [0€ 
€ (0 1» 02] ). 

Observación 2. La exigencia del carácter exponencial de la familia (Po), 
como se deduce de la demostración del teorema, puede ser debilitada hasta 
la condición de convexidad de la relación 


fe (X) JA) 
lo AN ROS 


con respecto a cierta estadística 7 (compárese con (10) y (11)). 

Observación 3. Prestemos atención una vez más en que si la hipótesis 
principal fuera > = (0 € (0,, 02)), y la alternativa H, = (6 € (0,, 62)), en- 
tonces, el cu.m.p. no existiría, ya que en este caso, los criterios “unilatera- 
les” que tienen la forma T > co T < c para las alternativas 0 > 0, y 0 < 01, 
respectivamente, resultarían más potentes que el criterio de forma T'¿(ci, 
c2). Por ejemplo, para las alternativas 9 > 0, existirá el cu.m.p. de forma 
T > c<c, y la condición ” € K, conducirá a la única limitación Moe,r < € 
(véanse las observaciones al final del punto 2). 

No obstante, resultará que si la clase XK, se reduce un poco adicional- 
mente, procediendo de un modo natural (véanse los $5 6 y 7), entonces 
el cu.m.p. también existirá en este problema. 

3. Otro enfoque de los problemas sujetos a examen. La esencia matemá- 
tica de la afirmación principal del teorema 2, así como de los teoremas 
en los $4 1 y 2, es muy simple y merece la pena que hablemos de ella espe- 
cialmente. Por ejemplo, en el teorema 2, la misma consiste en el siguiente 
problema variacional. En la clase de funciones r que satisfacen las condi 
ciones 


TL0/0)4"(dx) = €, ¡=1,2 
buscamos el elemento r? para el cual se maximiza 


[G)S:.091"(dx). 
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La siguiente afirmación suele llamarse generalización del lema funda- 
mental de Neumann — Pearson. 

Lema 2. Sean f,, ..., fm+1 las funciones reales definidas en 2” e in- 
tegrables respecto a la medida u”. Supongarnos que las funciones críticas 
x son tales, que 

[0941 091”(dx) =8. i=1, ..., mM. (17) 


Entonces, el elemento x”, en el que [dfn +10) 4” (dx) alcanza el máximo, 
tiene la forma 


l, si fm+10) > Y Kg, 
0, si fm) < 2 KYO), 


donde Ki, ..., km se determinan de las condiciones (17). 
Demostración. Designemos Fi(x) = [r0040)u" (dx), sl, 

..., m «+1. El elemento r que satisface las condiciones F,(w) = €;, ¡ = 

=1,..., m, maximiza Fm+1(w) si y sólo si maximiza Fm. i(") — 


m 
—- Y) Ki¡F¡(r) para cualesquiera K1, ..., Km (pues el valor de la suma aquí 
21 


rx = 


está registrado). Por consiguiente, es suficiente que  maximice 


j (Imarco — E kuico) rw", 
Pero esta expresión se vuelve máxima si se supone que r(x) = 1 allí donde 
Fea +1(x) — S KgO9 > 0, y (o) = 0 allí donde esta expresión es negati- 
va. Las es ki, de las cuales depende este r, así como los valores 
“libres” de xr en el conjunto (a+ 100) = o ksico) , deben escogerse de 


modo que se cumpla (17). <a 

4. Enfoque bayesiano y distribuciones a priori menos favorables al cons- 
truir el c.m.p. y el cu.m.p. El lema 2 aclara la esencia matemática de las 
construcciones que hemos realizado en este párrafo. En el apartado presen- 
te también se tratará de la esencia de estas investigaciones, pero desde un 
punto de vista algo diferente. El hecho consiste en que al demostrar el teore- 
ma 2 hemos utilizado, implícitamente, el enfoque relacionado con la cons- 
trucción de los criterios minimax a base de los criterios bayesianos 
(compárese con el teorema 1.2). Este enfoque se examina más detallada- 
mente en la exposición sucesiva. Aquí obtendremos una afirmación general, 
útil para construir el c.u.m.p. en el caso general, y explicaremos su relación 
con el enfoque minimax. 
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Supongamos que se verifica la hipótesis fundamental AH, = (0 € 0,) 
frente a la alternativa simple Ff = (0 = 02), 02401. En calidad de H aquí 
también se puede tomar la alternativa arbitraria (Y € G), donde G tiene 
una densidad g respecto a y y no está de ningún modo relacionada con 
la familia (Py). El problema consiste en determinar el cm.p. x de nivel 
l — e para verificar H, frente a Hz. Con otras palabras, es necesario hallar 
la función r de K,, 


K.= [m: sup Mor(X) < €] (18) 
0€0, 


que minimiza 8(02) = Mo, r(X). En las investigaciones precedentes hemos 
observado varias veces cierta dualidad en el planteamiento del problema: 
la maximización de la potencia, al ser registrada la probabilidad del error 
de primer género, equivale a la minimización de este último al ser registrada 
la potencia. Pero con tal inversión llegamos, en nuestra tarea, a la cuestión 
de minimización (18), que es precisamente el problema de construcción del 
criterio minimax (este problema se examina más detalladamente en el $ 9). 
Ello explica, en cierta medida, la semejanza de la afirmación (que se de- 
mostrará más abajo) con el teorema 1.2. 

Así pues, examinemos el planteamiento parcialmente bayesiano del 
problema, en virtud del cual el parámetro 6 en el conjunto 0), se elige al 
azar, con una distribución Q|. En este caso, la hipótesis compuesta Fl, se 
sustituye por la hipótesis simple Hp,, según la cual la densidad de X se 
define como el valor promediado respecto a la medida Q;: 


fa) = ] Fo(x)Q, (06). 


Para verificar Hg, frente a Ha en la clase K% = (r: Mo r(X) < el de 
los criterios de nivel 1 — £ existe el cm.p. rg, que tiene la forma (rg, es 
el criterio roo. en las designaciones del $ 4, donde Q» es la distribución 
degenerada en el punto 06): 

A ha si 209 > oo, 
di 0, si £0)< Ya 
(aquí £() = f,() en el caso paramétrico). 

Teorema 3. Supongamos que existe tal distribución Q,, concentrada en 
el subconjunto Of C 801(Q1(07) = 1), para la cual 

1) To €K? (20) 

2) Moro, (X) = const = sup Mo xo, (4) (21) 
para todos 0€ Of. 


Entonces el criterio xq, € K. es precisamente el c.m.p. para la verifica- 
ción de H, frente a Hh. 


(19) 
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Demostración, Comprobemos primeramente la pertenencia de 
To, € K;. En virtud de las condiciones del teorema, 


SUD Moro (A) = ' Moro. (1)Q:(d0) = Mo, ra, (A) < e. Q2) 
y er 


Sea ahora * cualquier otro criterio de K,, o sea, el criterio de nivel 
l — e para verificar H, frente a A. Entonces 


Mor) = [roda coN"do = | Mer U0Qu(A0) < : 


y, por lo tanto, r € K?. Pero entonces, en virtud de la definición de ro,, 
Moro (A) > Mo, (AX), 


que es lo que se necesitaba demostrar. < 

La distribución Q, que figura en el teorema se llama distribución menos 
Jfavorable. Esto está relacionado con la circunstancia siguiente. La magni- 
tud Bp,(02) = Mo, ro, (A) es el mayor valor de potencia que puede ser al- 
canzado en K,¿* con la distribución “a priori” Q, en O,. Si tomamos 
ahora cualquier otra distribución Q” en 6,, obtenemos 


Bg-(02) > Baé1), Ba(02) = inf BQ-(03) 


(esto es precisamente el sentido del término “'la peor distribución”). En 
efecto, en virtud de (22) xo, pertenece a K, y, por lo tanto, a K£”. Esto 
quiere decir que su potencia 87,(02) = Me, ro, (X) no superará la potencia 
del cm.p. en Kf' que, por definición, es igual a B¿.(02). 

Ahora, con ayuda del teorema 3 podríamos demostrar los teoremas 1 
y 2. El conjunto Of, en el que está concentrada la distribución menos favo- 
rable, en los teoremas 1 y 2 consta de un solo (0,) y de los puntos (6,, 
9,), respectivamente. Las condiciones (20) y (21) se transforman, respectiva- 
mente, en condiciones (3) y (7). 

Análogamente ha de utilizarse el teorema 3 para construir el cu.m.p. 
en otros casos: si el criterio construido ro, no depende de 6 € O, enton- 
ces Él será el cu.m.p. para verificar H, = [0€ 01] frente a Hz = (06€ 82) 
ea la clase K¿. 

La distribución menos favorable Q,, que satisface las condiciones del 
teorema 3, existe para suposiciones muy amplias que suelen cumplirse en 
los problemas reales. Es suficiente exigir la compacticidad de O), y la conti- 
nidad de fo(x) respecto a 9 para x cod. (véase [57] y los capítulos poste- 
riores). 

La investigación ulterior de las relaciones entre los enfoques bayesiano 
y minimax véase en el $9. 
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$ 6* Criterios no desplazados 


En este párrafo y en el siguiente utilizaremos los principios de no despla- 
zamiento y de invariación para la reducción natural de la clase de criterios 
que se examinan. El objetivo de tal reducción consiste en determinar los 
criterios óptimos. 

1. Definiciones y c.u.m.p. no desplazados. Al igual que en el párrafo 
anterior, examinaremos la verificación de la hipótesis compuesta /1, =. 
= (06€ 01) frente a Hi = (06 € 02], basándonos en la muestra X' € P., 
0€09 = 0,U8Oz. Examinemos primero los criterios r de la clase K, = 
= (7: sup Mor < el. 


Si, por ejemplo, O, comprende un solo punto 0,, Me, r = €, entonces 
e es la probabilidad de que se rechace H, cuando H, es cierta. La exigencia 
natural respecto al criterio r consiste en que la probabilidad de rechazar 
H,, cuando Hl, no es cierta, ha de ser mayor que e. Si no es así, entonces 
habrá alternativas con Jas que la aceptación de A, será más probable que 
en los casos cuando HH, es cierta. Tal situación es indeseable. Llegamos a 
la necesidad de destacar la siguiente clase importante de criterios. 

Definición 1. El criterio r se llama no desplazado si para él 


inf Mero) > sup Mo r(A). (1) 
60, 0, 
Ahora bien, el criterio € K, (para el cual sup Mex = 5) no esta- 
0660 


ría desplazado si £r(0) > e cuando € € 8». La clase de criterios no desplaza- 
dos de nivel 1 — € se designa por K,. 

El criterio unilateral xr con región crítica T > c (o T < Cc) para familias 
exponenciales, mencionado en el párrafo anterior, no puede permanecer 
sin desplazamiento al verificar H, = (X € Po,) frente a Mi = (X€ Po, 
0 4 01), ya que aquí O; = (0: O + 0,), Mer < € para O < O, si Me, Tr = E 
(véase el teorema 5.1). 

Al contrarío, los c.u.m.p., si existen, con la necesidad pueden no estar 
desplazados, ya que para ellos la potencia $(0), cuando 0 € 8), no puede 
ser menor que la potencia del criterio r(X) = e. 

E] principio de no desplazamiento”? reviste interés especial, puesto que 
permite reducir naturalmente la clase de criterios. Esto nos permite cons- 


truir los cu.m.p. en las clases X¿ cuando los c.u.m.p. no existen en la clase 
Ke. 


% El término “no desplazamiento” también se utilizó con arreglo a las estimaciones. Des- 
de cierto punto de vista la propiedad de no desplazamiento de la estimación es análoga a 
la propiedad de no desplazamiento del criterio: si la estimación 0” no está desplazada, entonoes 
Mo,0* 2 0 y habrá otros valores del parámetro Ó » 6 con los cuales el valor medio M6” 
será igual a 06. 
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Como veremos, esto se refiere, en particular, al problema de verificación 
de la hipótesis E, = (0 € [61, 92]), 01 < 02, frente a la alternativa bilateral 
H, = (04161, 021) (compárese con el apartado 2 del $ 5). 

La determinación de los criterios no desplazados y uniformemente más 
potentes puede ser bastante reducida al uso de los procedimientos ya emple- 
ados, cuya esencia se expone en el lema 5.2. En este caso puede ser útil 
la siguiente afirmación. 

Supongamos que cxiste una frontera común no vacía TP de los conjuntos 
O, y O de R*: 


Tr = 98,/N0682 


(99, designa la frontera de O,), o sea, un conjunto de puntos límites para 
681 y 02. Supongamos además, que para todos r € K, 


Br(0) = Mor(X) =E€ cuando todos 0 € T. (2) 


Es evidente que esta propiedad siempre se cumplirá si 8-(9) depende 
continuamente de O para cualquier criterio r de X.. 
Como 


Bx(0) = [TC)fo0dr"(dx), 0< rx) < 1, 


entonces la continuidad de $+(0) tendrá lugar si la función f.+(x) es continua 
respecto a $ para ct. y” de x. Esto se deduce del corolario 1 del Suplemento 
vi. 

Designemos por K¿ la clase de todos los criterios r que satisfacen (2). 

Lema 1. Supongamos que K, C Ko (o sea, que se cumple (2)). En este 
caso, si * es el cu.m.p en KN K., entonces % es el cuu.m.p. en Ke. 

Demostración. Es suficiente convencerse que f€ K. y que K¿C 
Cc KeM Ke. La segunda de estas relaciones se desprende de la suposición 
de que K. C Ke. La primera se deduce del hecho de que el criterio r mu e 
partenece a K¿NXK. y, por lo tanto, inf Mx > inf Mor =8. < 

4 a 


Ahora bien, el lema 1 permite reducir la búsqueda de los criterios 
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ciones (2) serán dos ecuaciones Mo r(X) = e, ¡ = 1, 2. Sin embargo, en 
el caso límite 0, = 82, estas ecuaciones se transforman en una sola. Pero 
en virtud del no desplazamiento del criterio r, su potencia $-(0) debe alcan- 
zar su mínimo en el punto 6, (véase (1)). Por consiguiente, si 8x(0) es deri- 
vable, entonces, el papel de las ecuaciones (2) en el caso de las 0, = 9, lo 
desempeñarán las igualdades 


Br(01) = €, Bx(01) = 0. (3) 
Las condiciones de derivabilidad de ¡ fe0Oyu(dx) y, por consiguiente, 


también de B,-(0) = Moxr(A), son aclaradas en el Suplemento VI. Si se 
cumplen estas condiciones, entonces 


860) = [(T_)¿COn"do = 
= [r(x)L"(x, Dfo0)u" (dx) = Mor(L “(X, 0). 


Esto significa que las condiciones (3) pueden escribirse de nuevo en térmi- 
nos integrales: 


Mo, (A) = €, Me TOOL '(x, 01) = 0. (4) 
Por ejemplo, para la familia exponencial (5.9), 
L'(x, 0) = c*(0)/c(0) + a'(0T7(x). 
Como Mel ' (x, 9) = 0, entonces c' (0)/c(0) = —a'(AMITOO, 
Me rOL"(X, 6) = —a (OMS T(O-Mor(O + a (OMITCOTIS, 
y las ecuaciones (4) adoptan la forma 
Mo (r(X) —- €) =0, Moa(r(A) -— TA) =0. 


En calidad de ejemplo ilustremos un caso para cuyo examen, de hecho, 
ya todo está preparado. 
2. Alternativas bilaterales. Familia exponencial. 


Teorema 1. Supongamos que fe(x) se define por la igualdad (S.9), y 
que se verifica la hipótesis Hi = (0 € [0,, 621), 0, < 02, frente a la alternati- 
va Hz = (04101, 62)). Entonces, si la función a(0) es mondtona, 

1) en la clase K, de criterios no desplazados de nivel 1 — e existe un 
c.u.m.p. + que tiene la forma siguiente: 


0 si a<TO<a, 
TX) = pm si TOA) =C, ¡i=1,2, 6) 
1 si To) ¿ [cr, cal, 


e] 
donde T(x) = Y; U(x;), y las constantes ci, pi, i = 1, 2 se deducen de las 
fu1 
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condiciones 
Moa, H(X) =6E, ¡= 1, 2, (6) 
si 0, < 62, y de las condiciones 
Mo AX) = €, Mo (FO — ET = 0, (7) 
si 6, = 0». 


2) El criterio + minimiza la función B.(0) = Mex(X) en las condiciones 
(6) dentro del segmento [61 , 02], y la maximiza fuera de [6,, 02] en las condi- 
ciones (6) Ó (7) (esto último sucede cuando 0, = 0»). 

3) cuando 0O<Ee<1y0,<0»z, la función B(0) = Me(X) alcanza su 
valor mínimo en cierto punto 0 € (61, 02) y crece estrictamente al alejarse 
9 de 6 a la derecha o a la izquierda. Además, excluimos el caso (S.8). 

No es difícil ver que la enunciación de este teorema casi repite la afirma- 
ción del teorema $.2. La única diferencia consistente en que las propias 
afirmaciones tienen, a veces, carácter “contrario” y no se excluye la igual- 
dad 6, = 62. 

Demostración. En el caso de 6, < 02, ésta es absolutamente análoga 
a la demostración del teorema $.2. En la nota 1 adjunta a este teorema 
hemos dicho que para 9, < 62 todos los razonamientos del referido teorema 
conservan su validez en el caso cuando se verifica la hipótesis (6 E [61, 62]) 
frente a (0 € [6,, 02)), o sea, a los símbolos de este párrafo: la hipótesis 
H, frente a la H,. Pongamos *(x) = 1 — xr*(x), donde ** es la función 
definida en ($.6) para las condiciones Ma, r* (A) = 1 — e, i = 1, 2, en vez 
de (5.7). Entonces, las afirmaciones 2) y 3) serán, evidentemente, los corola- 
rios directos de las respectivas afirmaciones del teorema 5.2. 

La primera afirmación del teorema resulta de la segunda, ya que la clase 
de criterios r que satisfacen (6) es más amplia que X; y, por consiguiente, 
% maximizará Mor(x) en la clase X, en cualquier punto 4 fuera de [6,, 
02]. Esto significa que rr es el criterio no desplazado uniformemente más 
potente. 

Nos queda examinar el caso 9, = 62. Aquí es más simple, por lo visto, 
hacer uso del lema 5.2. Tomemos cualquier 0 + 0, y examinemos el proble- 
ma de maximización de Mer(X) para las condiciones 


Mo, T(x) e €, Ma VOTA) => ¿Mo, T(A). 


Es evidente que nos encontraremos en condiciones del lema 5.2 si ponemos 
m=2,f =.., L£ = Vos f3 = fo, £1 = €, €e = E£MoT(X). Según este le- 
ma, el máximo Mex se alcanzará en la función 
+09 = la si foo) > kia, 0) + k2T()f0,00, 
O, si fox) < ko (%) + kTO0)f, 0. 
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Examinemos la última desigualdad, que ouede ser escrita en la forma 


C(0) _(e(0) - a(9 DTU) 

SR ' < Ki + kT(). 

l0n * 1 + 70) 

Está claro que para todos c, < cz siempre se puede escoger k,, kz de modo 
que esta desigualdad equivalga a 


cq<T<G. 


Esto demuestra que el criterio de forma (5) maximiza Mo» r(A) en las condi- 
ciones (7) siempre que c; y pi, i= 1, 2 puedan escogerse en (5) de modo 
que se satisfaga (7) (u (8). Este criterio será, evidentemente, el criterio no 
desplazado uniformemente más potente, ya que la clase de criterios r que 
satisfacen (8) es más amplia que X; y, por lo tanto, + también maximizará 
Mox(X) en X.. Así pues, para demostrar el teorema queda demostrar que 
es válido el 

Lema 2. La ecuación (7) cuando 0 < e < l es resoluble respecto a ci 
Ypyisl1, 2. 

La demostración de este lema, al igual que la del lema 5.1, será expuesta 
suponiendo simplemente que la P,,-distribución de T(X) es continua, es 
decir, Pa, (T(A) = Cc) = O para todos c. 

Recordemos que la densidad de la distribución T respecto a cierta medi- 
da » puede considerarse igual a (véase el $ 5) ge(£) = c(0)e”. Entonces, las 
ecuaciones (7) y (8) serán equivalentes a las relaciones 


Ma,(l — (0) = c(81) | e“r(d) =1 e, 0) 


£ 


Mo, (1 - XUD)TIX = c(6,) ! te" y(dt) = (1 — e)c(61) Í te** »(d0. 


Designando r(h) <= t, ms Mo TX) = c(01)[1e**v(dn), podemos escribir 
las ecuaciones (9) en la forma 


Ze. 
c(0,) j evvdh)=1-e, 


a 
cl01) $ ríe” v(dí) = (1 — em. (10) 
[3] 
Hemos llegado al problema que coincide con el problema examinado en 
el lema 5.1. La única diferencia consistente en que la distribución con densi- 
dad r(Sgs,(() puede ser generalizada (o sea, también puede adoptar valo- 
res negativos). Bn estas nuevas condiciones conviene poner fo = m. En lo 
demás, los razonamientos del lema 5.1 no cambian. «< 
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$ 7*, Criterios invariantes. 


En este párrafo examinaremos otra manera de reducir la clase de todos 
los criterios, basada, esta vez, en las consideraciones de invariación. 

Supongamos que X € (Ps) y que [P+) es una familia invariante. Re- 
cordemos las designaciones necesarias y los conceptos respectivos (véase 
el $ 2.19). Supongamos asimismo, que se ha dado un grupo G de transfor- 
maciones medibles g£ del espacio 2” en sí. La familia (Ps) será invariante 
respecto a G, si para cada g € G y cada 0 € O hay un elemento 0, € O tal, que 

Po. (X € A) = PolgX € 4) 

para cualquier A€ 82. 

Las transformaciones £ del espacio 6, definidas por la igualdad £0 = 9,, 
forman, al cumplirse las condiciones Ao, el grupo G (véase el $ 2.19). 

Definición 1. Diremos que el problema de verificación de la hipótesis 
H, = (06€ 09,) frente a HF = (06€ 8), 8,U8,) = 8 es invariante siempre 
que se cumplan las dos condiciones siguientes: 

1) La familia (Po) es invariante respecto a G. E 

2) Los conjuntos O, y 62 son invariantes respecto a Z€ G, o sea, 
$9; = €, i= 1, Z: 

Si el problema de verificación de las hipótesis es invariante, es natural 
que para su solución se haga uso del criterio invariante. 

Definición 2. El criterio w se llama inmvariante cuando r(x) es estadística 
invariante respecto a 2”: 

a(28x) = (o) para todos xt 2”. geG. 

Si r es un criterio no randomizado y (2, es la región de aceptación de 
la hipótesis Ff,, entonces, la invariación de x significará que g0, = Q,,j = 1, 
2. á 

La utilización natural de los criterios invariantes se puede comprender, 
por lo visto, con más facilidad, a base de ejemplos. La investigación gene- 
ral, relacionada con la interpretación de g como la sustitución de las coor- 
denadas y la insensibilidad de las estadísticas respectivas a esta sustitución, 
está contenida en el $ 2.19. 
__ Ejemplo 1. Los ejemplos más simples se refieren al caso cuando el grupo 
G es trivial, o sea, cuando £ para todo g es la transformación idéntica € 
del espacio O. 

Supongamos que X € %, ,,; se verifica la hipótesis Hi = (01 € 0 € 
< 02) frente a la alternativa adicional AH. En este caso 


E J E | o 2 
A E 


*% Véase la nota en da pág. 195. 
22—8030 
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Es evidente que la familia $, ,. es invariante respecto al grupo G de trans- 

formaciones ortogonales 2 (revoluciones) del espacio 2”, con la particula- 

ridad de que £ = € para cualquier g. Por eso es matural examinar los 
n 


criterios x que dependen exclusivamente de la estadística T(X) = 2) xí. En 
¿1 


vista de que 0" ?*T(X) € Ti/2,nr2 = Ha, entonces T(X) € TPo.a/2 para a = 
= 1/(20?*) y llegamos al problema de Nación de la hipótesis 
HH, = lo a a< aj, ea = 1/(207), a2 = 1/(01), según la observación 
T(X que tiene la distribución Ta,n/2 de una familia exponencial. Con ayuda 
de los resultados de los párrafos precedentes podemos construir el criterio 
no desplazado y uniformemente más potente, de nivel 1 — e, que acepta 
HH, cuando 


Cl < TA) < C2, (1) 


donde c;, se elige de modo que To, aíR M [cr, c23) = Po, ara (RA > [cr, 
Cal) = €. 

Nótese que en este ejemplo podríamos construir el criterio de la forma 
(1) partiendo también de otras consideraciones, o sea, basándonos en el 
principio de insuficiencia, ya que la estadística T es suficiente. Pues sabe- 
mos que toda la información acerca del parámetro a? está concentrada en 
T y no vale la pena utilizar otras estadísticas (o sea, otra información rela- 
cionada con la muestra). 

En lo sucesivo, allí donde sea posible, reduciremos inmediatamente este 
problema al problema de distribución de las estadísticas suficientes. 

Ejemplo 2. Supongamos que X € %, 1, H1 = 101 < € < 02]. En este 
caso 0 = (a, a?) y la transformación de desplazamiento ¿X= X+cu 
= (x1 +C,..., Xn + C) induce la transformación fo = «+ + c que mantiene 


invariable la hipótesis A, . Si nos limitamos a investigar las estadísticas sufi- 
cientes 


T=x To Y ta-»D, 


entonces, la transformación g proporcionará 


Ti(gX) =x +C, TiugT) = TA(A). 


Ahora bien,, la estadística T2 es invariante respecto a G. Es decir, el criterio 
invariante w, basado en las estadísticas suficientes, debe ser una función 
de 72. (Más adelante veremos que cualquier criterio invariante m debe ser 
una función de 7»). En virtud del $2.32, 07 *T, € TP 2,( - 1112 y llegamos 
al problema examinado en el ejemplo precedente. El criterio invariante no 
desplazado y uniformemente más potente tendrá la forma c, £ T2<0. 
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Ejemplo 3. Los dos ejemplos examinados más arriba se referían a la 
distribución normal. Con arreglo a la distribución de la muestra X, la mis- 
ma era una distribución normal multidimensional con una matriz diagonal 
de segundos momentos. Para la exposición posterior es útil notar que la 
familia de distribuciones normales multidimensionales arbitrarias 9,, ,,, 


a€eR”, 0? a lay, tf a 1, ..., m es invariante respecto al grupo G de 
transformaciones no degeneradas lineales 
gx =(x- Nc, 


donde C' es una matriz inversa. En efecto, debemos convencernos que, con 
cierta transformación £g, se cumple Pzo(A) = Po(g”!4), donde Pp == 
= DO > (a, 07), g7*A significa, por lo común, el conjunto g”*A = 
= (x€R": gx€ A). Tenemos (0 = y lo”! 


e. (2714) e nv | exp (- 3 (x — ajo Ux - ay”) dx. 
A 


Después de sustituir y = gx, obtenemos 


A: A A A 
e lEThA = amar e ( 367» — arotty — aya 


Teniendo en cuenta que g”!y = yC”? + a, en la última integral podemos 
escribir el exponente de la forma siguiente: 


(y - (a - a)e7 ta" UC" YY — (a — aJC)”. 
Por consiguiente, si se pone 
80 = Ela, 0”) = (ga, C%o*C) = ((a — a)JC, C*o*C), (2) 
obtenemos 
Pon (27 A) = Pray (A). (3) 


Ejemplo 4. Supongamos que las hipótesis H; tienen la forma siguiente: 
H = (X€ Pj,.) a€Z2 j = 1, 2, donde P, . son las distribuciones con 
densidades fy(x — a), j = 1, 2. Con otras palabras, nos interesa a cuál de 
dos tipos de distribuciones le pertenece, con una exactitud de hasta el 
desplazamiento, la muestra X. Aquí conviene poner Ó = (», a), v = 1,2, 
a € 2 y examinar la transformación £X = X + c que en el espacio para- 
métrico induce la transformación £(0 = (», a: + c). Está claro que las hipó- 
tesis AH, = fv =j], j = 1, 2 son invariantes respecto a g y, por lo tanto, 
el problema de verificación de estas hipótesis también es invariante. La esta- 
dística 

Y = (UU —Xn, ..., Xn-1— Xn) 


22* 
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será invariante respecto a £ (compárese con el $2.18). La distribución de 
esta estadística en el punto y = (1, ..., Ya- 1), en caso de la hipótesis H,, 
tiene la densidad siguiente: 


n-1 
so NTI 50 + asno, (4) 


ist 


De aquí se deduce que para la observación Y, las hipótesis A; se trans- 
forman en hipótesis simples, conforme a las cuales las densidades ff para 
Y tienen la forma (4). En estas condiciones podemos hacer uso del lema 
de Neumann — Pearson y construir el c.m.p. r que acepta la hipótesis F7 si 


MA > e. (5) 


Como este criterio no depende de «, el mismo será el c.uu.m.p. para verificar 
H, frente a Ff, entre todos los criterios invariantes basados en la estadística ' 
Y. 

Con arreglo a los ejemplos examinados es conveniente estar seguro de 
que los demás criterios invariantes en estos problemas también son fun- 
ciones de las estadísticas invariantes escogidas por nosotros, Esto se refiere 
especialmente al último ejemplo, puesto que en los dos ejemplos anteriores, 
la elección de los criterios también se basaba en las consideraciones de sufi- 
ciencia. 

Para aclarar las relaciones mutuas entre los invariantes, introduzcamos 
algunos conceptos. Dos puntos x y x* de 2” se llamarán equivalentes res- 
pecto al grupo G si existe 2 € G tal, que x” = gx. Como G es un grupo, 
entonces todo el espacio 2” se divide en clases disjuntas de equivalencia, 
que en el $ 2.19 hemos llamado órbitas. Para obtener cierta órbita es sufi- 
ciente tomar un punto cualquiera xo de la misma y aplicar a Éste todas 
las transformaciones g de G. Por ejemplo, para las transformaciones orto- 
gonales del ejemplo 1, las órbitas forman esferas cuyos centros coinciden 
con el origen de coordenadas. 

La invariación de la estadística 7 respecto a G es univoca al hecho de 
que T es constante en cada órbita. 

Definición 3. La estadística T se denomina invariante máximo si la mis- 
ma es invariante, y de 7(x") = 7(%) se deduce x' = gx para cierto g€ G. 

Esto significa que el invariante máximo adopta distintos valores en órbi- 
tas diferentes. 


Teorema 1. Sea T el invariante máximo. La estadística S es Invariante 
si y sólo si S depende de X a través de t, o sea, si existe una función y 
tal, que S(X) = p(T(A). 
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Para simplificar la exposición, aqui no tratamos una cuestión importan- 
te, relacionada con la mensurabilidad de y. Nótese solamente que en los 
ejemplos examinados en este párrafo, tal mensurabilidad tendrá lugar”. 

Demostración. Si S() = p(1()), entonces Sígx) = gT(gx) = ATOD) = 
= S(x) y, por lo tanto, S es invariante. Para demostrar la afirmación inversa 
debemos convencernos de que de 700) = 7(x*) resulta Sr) = S(x*). Pero 
esto es asi en virtud del hecho de que T(x) = 7(x“) provoca la existencia 
de una g tal, que x” = gx. Pero como $ es un invariante, S(x) = S(x'). «a 

A título de ejemplo examinemos el grupo G de desplazamientos 


Bx=x+0=(Xx1+C, ..., Xp +0). 


Como ya hemos señalado, la estadística Y(x) = (41 — Xu, ---» Xn-1 — Xn) 
es un invariante. Mostremos que éste es el invariante máximo. En efecto, 
de Y(O)= YA )m(A—Xf +...» Xi-1 Xx) se desprende que 
X; — Xa = xí— xy para todos ¡ = 1, ..., n — 1. Poniendo Xx, — Xn = C, Ob- 
tenemos xy =xi+c,i=1l,...,n,x” =x+€= gx, lo que precisamente 
significa la equivalencia necesaria de x* y x. 

Ahora podemos volver al ejemplo 3 y afirmar que el criterio (5) es el 
cu.m.p. entre todos los criterios invariantes, puesto que según el teorema 
l todos los criterios invariantes son funciones de Y y, por consiguiente, 
la suposición de que exista un criterio invariante más potente que (5) será 
contradictoria. 

Por analogía a lo expuesto anteriormente, el lector puede convencerse 

A 


de que la estadística Y) x7 en el ejemplo 1 también es un invariante 


lul 
máximo. 
Si existen estadísticas suficientes, al principio suele ser conveniente redu- 
cir el problema inicial al problema respecto a la distribución de las estadísti- 
cas suficientes y luego emplear las consideraciones de invariación así 


como se hizo en el ejemplo 2, donde la estadística Ta = Y) (au — XY es, 
lal 


evidentemente, el máximo invariante en la observación (X, 72). 

En conclusión de este párrafo es preciso señalar una vez más, que la 
esencia del enfoque relacionado con la invariación consiste en que los 
problemas sometidos a examen y destinados a la verificación de las hipóte- 
sis, deben reducirse a problemas más simples, referentes a la distribución 
de los invariantes máximos. En estas nuevas condiciones, que son más 
simples, resulta posible, en varios casos, construir el c.m.p. o el cu.m.p. 


% Véanse, por ejemplo, [57] y (95). 
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En este sentido, el “principio de invariación” se asemeja a los “principios” 
de suficiencia y de no desplazamiento, de acuerdo con los cuales el proble- 
ma inicial se reduce a un problema en términos de estadística suficiente 
o de estadística no desplazada. 


$ 8* Enlace con los conjuntos confidenciales. 


1. Enlace de los criterios estadísticos y los conjuntos confidenciales. 
Enlace de las propiedades de optimización. Los conceptos de conjunto con- 
fidencial y de criterio estadístico están estrechamente ligados entre sí. En 
el $2.31 hemos dado la definición del conjunto confidencial. Recor- 
démosla. 

Sea XE Ps, 0€ O. 

Definición 1. El subconjunto aleatorio O * = O *(x, €) del espacio esta- 
dístico O se llama conjunto confidencial de nivel 1 — e, si 


P4O(X, e) 30) > 1 - € (1) 


para todos 0 € O. 

Evidentemente, el intervalo confidencial es un caso particular del con- 
junto confidencial. Este último tiene el mismo sentido: con una probabili- 
dad >] — e recubre el valor verdadero del parámetro. 


Designemos 
Q(0, 8) = [xE€2”: 0€£8(x, 8)). (2) 
Entonces, las relaciones 
0€0(x, e) y xe€RN(0, e) (3) 


serán equivalentes. 

La definición del conjunto confidencial supone que el conjunto £1(6, 
e) en (2) es medible, así que la probabilidad en (1) tiene sentido y es igual 
a P-(X € Q(0, e). 

Los conjuntos confidenciales y los criterios estadísticos para verificar 
la hipótesis H, = [9 = 0,1) frente a la alternativa adicional Hz = (0 € O], 
61 ¿ O,, están enlazados entre sí del modo siguiente. Supongamos que para 
cada 0, ha sido definido su conjunto O, = 81(9,) 301. 


Teorema 1. 1) Examinemos para cada 0, el criterio no randomizado 
x = óde nivel 1 — e para verificar la hipótesis H, frente a Ha, y designemos 


por N(0,, e) su región de aceptación de la hipótesis H,. Entonces, el 
conjunto 


O U(X, 2) = [0€9; XEN(O, e)) 


será un conjunto confidencial de nivel 1 — e. 


6 8. ENLACE CON LOS CONJUNTOS CONFIDENCIALES 343 


Al contrario, si S*(X, e) es un conjunto confidencial de nivel 1 — e, 
entonces el conjunto Q(0,, €) C 2”, definido en (2) y adoptado como re- 
gión de aceptación de H.,, determinará el criterio para verificar H, = 
= (0 = 0,) frente a H, = (09 € O:(01)) de nivel 1 — e para cualquier O2(01), 
01 492(9,). 

2) Si el criterio x con la región de aceptación N(01, €) de la hipótesis 
H, es el c.u.m.p., entonces, el conjunto respectivo O"(X, E) minimizará la 
probabilidad 


P0(0* €O*(X, E)) para todos 9, 0”, 0€ Ora”) (4) 


en la clase de todos los conjuntos confidenciales de nivel | — € 
También es cierta la afirmación contraria: La minimalidad (4) significa 
que el conjunto respectivo Q (0, e) engendrará el c.u.m.p. 
Para el parámetro unidimensional se usan principalmente los casos 


9:(0') = [0:00] y 02(6') = [6.0 >0') (o bien (6: O < 6 ' )). 


En el primero de ellos en (4) tendrá lugar la minimización para todos 
9” 0, y en el segundo, para todos 6” < 0. 

Así pues, en (4), el teorema afirma que para 0O*, la probabilidad Ps 
se minimiza de que todo otro valor de $” x 0, tal que 0 € O,(9' ), pertenezca 
a un conjunto confidencial. Esta es una de las maneras de separar los inter- 
valos confidenciales óptimos. 

Definición 2. Los conjuntos confidenciales para los cuales se minimiza 
(4) a condición (1) se llaman conjuntos confidenciales más exactos (de nivel 
l — £) respecto a las alternativas 0' tales que 0 € 92(09*). 

Más adelante expondremos cierta argumentación adicional para tal en- 
tendimiento del intervalo confidencial óptimo. 

Ahora bien, el teorema 1, establece que la “inversión” del conjunto 
(01, e) para el cu.m.p. da el conjunto confidencial más exacto. En este caso 
es importante señalar que el referido procedimiento de construcción de los 
conjuntos confidenciales no está de ningún modo relacionado con la di- 
mensión de 0. Incluso se pueden examinar los parámetros de dimensión 
infinita 0 e identificar Ó con la propia distribución P de la muestra X. En- 
tonces, las relaciones de equivalencia (3), donde Q (0, e) = Q(P, £) es la 
región de aceptación de la hipótesis (X E P] frente a la alternativa 
(X€EP, + P), permiten construir el conjunto confidencial para P. Por 
ejemplo, en el $ 1.6 hemos visto que la distribución de la estadística 
D, = Yn sup |FA(t) — F(t)|, a condición de que X € P, donde Fes una fun- 

1 


ción continua de la distribución correspondiente a P, no depende de F y 
puede ser determinada. Por consiguiente, podemos hallar tal d = d(£), que 
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P(D, < d(e)) = 1 - e. Ahora bien, la desigualdad 
vn sup FAO — F(1)) < 4 


define la región de aceptación de la hipótesis [X € P) para el criterio de 
nivel 1 — €, 

Pero esta misma desigualdad también define el conjunto confidencial 
para F: simplemente debido a la simetría de esta desigualdad respecto a 
F y Fx aquí no se necesita ningún procedimiento especial de “inversión”. 

La demostración del teorema 1 es casi evidente. La misma se basa en 
la equivalencia (3), en virtud de la cual 


P:0€08*(X, e) = PAX ENO, Ed) > 1 - e. 


Esto demuestra la primera afirmación. Para demostrar la segunda examine- 
mos cualquier otro conjunto confidencial Ó*(X, £), y sea 4 (0, e) el subcon- 
junto correspondiente en 2”. 

Entonces, 


PAX ED(O, E) = Pol0EÓ*(X, E) >1 - €, 
PAX € ÑO), €)) > PAX E Q(01, €) 


para todos 0 € O2(9,) y, por lo tanto, 
Po(91 €S*(X, E) > Po(0, € 9*(X, E). <a 


Examinemos ahora un importante caso particular relacionado con el 
parámetro unidimensional 6. 

2. Intervalos confidenciales más exactos. 

Teorema 2. Supongamos que el conjunto Q(Ó0, E) del c.u.m.p. examinado 
en el teorema 1 tiene la forma 


ci(0, €) = T(x) S c2(0, €), 


donde ci(0, e) dependen monótona y continuamente” de 6. Supongamos, 
para precisar, que c;(0, e) crecen. Entonces, el conjunto confidencial más 
exacto (de nivel 1 — €) respecto a las alternativas 0" tales, que 9 € O2(0"), 
tendrá la forma de intervalo 


GHT ES<o<c UT e, 


donde T = T(X), Ci “e, e) son las soluciones de las ecuaciones ci(0, e) = 1 
respecto a 0. 


” Las propiedades de monotonía y de continuidad de cr(0, e) se deducen, por lo general, 
de las mismas propiedades de la función de distribución P»7(X) < c). En las designaciones 
del $ 2.31, c,(0, €) = Gs *(e1), c2(0, e) = Go M1 — en, donde Go es la función de distribución 
T(A), €) + €) = €. 
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Ahora bien, vemos que el procedimiento de construcción del intervalo 
confidencial es aquí, de hecho, el mismo que en el $ 2.31 con la única parti- 
cularidad de que en calidad de estadística S aquí se utiliza la estadística 
T del criterio uniformemente más potente. 

La demostración del teorema es evidente y se la dejamos al lector. 

Ahora examinermos más detalladamente los intervalos confidenciales 
unilaterales para $ escalar. Estos intervalos se utilizan allí donde reviste ma- 
yor interés una sola cota para estimar el parámetro. Tales situaciones surgen 
cuando se estima la probabilidad de que se produzca cualquier suceso inde- 
seable o, digamos, cuando se estima el esfuerzo de rotura de una nueva 
aleación. 

Debido a la simetría es posible reducirse al examen de la frontera confi- 
dencial inferior 0” (X, £) para la cual 


PO" (X, £) £0)>31-e. (5) 


Definición 3. La frontera 0” = 9” (X, €) para la cual P+(0” <0') es 
minima con todos 6” < 6 se llama frontera confidencial inferior más exacta 
de nivel 1 — e. 

Supongamos que w(9” , 0) es cualquier medida de pérdidas que surgen 
debido a la ““subestimación” de 6: w(0” , 0) = 0 cuando 0” >0 y w(0", 
6) > O cuando 0” < 6; en este caso w(0” , 0) crece continuamente al alejar- 
se 0” de 6, Mow(0”" , 0) < oo. 

La siguiente afirmación aclara, en cierta medida, el sentido de la defini- 
ción 3. 

Lema 1. La frontera inferior más exacta 0” minimiza el valor Mew(0, 
0) para la condición (5) y para cualquier función w que posea las propieda- 
des enunciadas anteriormente. 

Demostración. Sea 9” otra frontera inferior. Entonces, como los incre- 
mentos d,w(u, a. respecto a u en la región 4< Ó son negativos, 


Mow(0”, 0) = [ w(u, O)Jd.Po(0” <u) = — | Po(0” < ujduw(u, 0) < 
0 

S — [PAÍ” < uja.wíu, 0) = Mew(Ó", 0) < 

Así pues, vemos que el enfoque de la definición de los conjuntos confi- 

denciales más exactos en caso de los conjuntos unilaterales es muy natural. 

Ahora, con ayuda de los teoremas 1 y 2 y los resultados del $ $ se pueden 

construir explícitamente los intervalos confidenciales unilaterales para el 
caso cuando la relación de verosimilitud es monónona. 

Teorema 3. Supongamos que X € Po y que la familia (Pa) tiene rela- 

ción de verosimilitud monótona respecto a la estadística T(X) cuya 

Pe+-distribución Go(t) = PAT(X) < 1) es continua respecto a Ú y 1. Enton- 
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ces, la estadística T de la distribución depende monótona y continuamente 
de 0, (o sea, Go(t) decrece continuamente con el crecimiento de 0, véase 
la definición 2.31.3). Si b(t, y) es la solución de la ecuación Gu(t) = y res- 
pecto a €, entonces, la frontera inferior más exacta 9” (X, e) de nivel 1 - € 
es igual a 


97 (X, E) = KIA), 1 — €). 


Con otras palabras, en la afirmación del teorema 2.31.1 obtendremos 
la frontera confidencial inferior más exacta si utilizamos en calidad de S 
la estadística T. 

Demostración. En nuestro caso, en condiciones de los teoremas 1 y 2 
es necesario poner 92(0) = (1: £ > 6). En virtud del teorema 5.1 existe un 
c.u.m.p. no randomizado para verificar /,= (0=0,] frente a 
FI, = (0 > 6,) con la región Q (6,, e) = ([X: T(X) < c) de aceptación de 
H,, donde c = c(6,, 1 - €) = Go, (1 — €) se deduce de la condición 


PA (TX) < c(01, 1- e) =1-e. 
En este caso 
PATA) > 0) >E= Pa (TD > Cc) 


cuando 6 > 6. Esto último quiere decir que c(01, 1 - £) < c(0, 1 - £) 
cuando 9, < 6, o sea, la función c(0, 1 — €) crece respec:io a 6. La conti- 
nuidad de c(0, 1 - e) = Go ' (1 — e) respecto a 0 se deduce de la conti- 
nuidad de Go. 

Vemos que las condiciones de los teoremas 1 y 2 se cumplen por comple- 
to cuando c2(0, £) = c(0, 1 — e) y, por lo tanto, el conjunto confidencial 
más exacto tiene la forma del semiintervalo (c” *'(7(XO), 1 — €), eo), donde, 
como hemos visto en el teorema 2.31.1, c "UT 1-— e) =bT,1-e€). <a 

De un modo exactamente igual se puede construir la frontera superior 
más exacta 0* (X, €). 

Ahora supongamos que 6” (X, £,) < 06*(X, €2) designan las fronteras 
confidenciales superior e inferior de los niveles 1 — e, y 1 — ez, respectiva- 
mente. Como los sucesos [8 ” (X, £1) > 0) y ([06* (X, e2) < 6) son disjuntos, 
entonces 


PO" (X, €) <0<0*(X 82) =1- € -— €, 


y (0” (X, €1), 6* (X, £2) es el intervalo confidencial de nivel 1 — e, — €). 
Sean w1(07 , 60) y w2(0*, 0) las funciones de pérdidas para las fronteras 
0% que poszen las propiedades descritas en la enunciación del lema 1. 
Lema 2. Sea w(9” ,0*,0) = w,(07 ,0) + w(0*, 0). Entonces, el interva- 
lo confidencial (97 , 0* ), formado por las fronteras superiores e inferiores 
más exactas, minimiza Mew(9” , 0*, 0) para tas condiciones 


Pr(07 >0) < e, Po(0* < 0) < ez 
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Éste lema es el corolario evidente del lema 1, El mismo muestra que 
el intervalo confidencial construido con ayuda de las fronteras inferior 
exacta y superior exacta también poseerá propiedades de optimización. 

El teorema 3 da la posibilidad de construir explícitamente tales interva- 
los para las familias paramétricas que tienen monótonas las relaciones de 
verosimilitud. 

Le proponemos al lector que el mismo se cerciore, a base de las observa- 
ciones efectuadas, de que los intervalos confidenciales, construidos en el 
$ 2.32 para la media y la varianza de la distribución normal, tendrán las 
fronteras superiores e inferiores más exactas. 

En el teorema 1 y en las investigaciones posteriores figuraba la condi- 
ción de que el c.u.m.p. no es randomizado. Sin embargo, esta limitación 
no es importante. Cualquier criterio randomizado r puede ser representado 
como criterio no randomizado, si en la investigación se introduce una ob- 
servación adicional Y que sea independiente de X y que esté uniformemente 
distribuida en [0, 1]. En efecto, examinemos, para la nueva muestra (X, 
Y), la región crítica 


L = ((% y): rx) > y), 


O sea, supongamos que 4(X, Y) = 1 si(X, PY) €Q, y que $(X, Y) = 0 en 
el caso contrario. Entonces, para toda distribución de X, 
1 


PX, Y) = 1) = P(r(A) > Y) = ¡ P(T(A) > Ndy = Mr), 
0 

y, por consiguiente, el criterio ó es equivalente (según sus parámetros) a 
r. ¿Cómo aprovechar esta circunstancia para construir los intervalos confi- 
denciales en condiciones del teorema 3? Supongamos, para abreviar, que 
la estadística 7(X) es de números enteros (como hemos visto, la falta de 
los c.u.m.p. sólo puede ser provocada por el carácter discreto de la distribu- 
ción 7). Entonces, la observación S(X, Y) = T(A) + Y Y € U.,1 conserva 
toda la información contenida en 7(X), ya que 7(X) es una parte entera 
de S(X, Y). Eligiendo c(0, £) entero, al c.u.m.p. de nivel | — e se le puede 
conferir la forma siguiente: se acepta la hipótesis A si 


S(X, YN) <c(0, 1 — e). 


Así pues, hemos construido los conjuntos requeridos Q (0, e) y sólo queda 
“invertirlos” usando el mismo procedimiento que antes. Obtendremos la 
frontera inferior 

MAX, Y e =c (NX) + Y 1-0), 


donde c”! es la función inversa a c con arreglo al primer argumento. Aquí, 
de la propia escritura se deduce que para definir 9” es necesario realizar 
una Observación adicional Y. 
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Ejemplo 1. Sea X E B,, y nos interesa la frontera confidencial superior 
p* de nivel 1 — e para la probabilidad p = P(x = 1) = 1 — P(x; => 0). La 
familia de distribuciones ([B,) es exponencial y satisface las condiciones 

n 


del teorema 3, donde conviene poner 7T(X) = );) xi. Examinemos la obser- 
¡m1 


vación A 
$ = Nx + Y Y € Do.1- 
lel 


Esta tiene en el punto + 0<1<n=+ 1, la densidad Cp — py 01, 
Designemos por Gp“? la función de distribución con esta densidad. Enton- 
ces p* será la solución de la ecuación Gp(f) s €. 

3. Conjuntos confidenciales no desplazados. Volvamos a la cuestión 
acerca de los conjuntos confidenciales más exactos. Con ayuda del teorema 
3 podemos construir las fronteras superiores e inferiores más exactas basán- 
dose en el hecho de que para las alternativas unilaterales (6 > 0,), (9 < 0, ) 
de las hipótesis (9 = 61), en una serie de casos existe el c.u.m.p. Si tratamos 
de utilizar los teoremas 1 y 2 directamente para construir los intervalos 
confidenciales más exactos, necesitaremos la existencia de c.u.m.p. para ve- 
rificar la hipótesis (0 = 6,] frente a (0 »* 6,), lo cual ocurre múy raramen- 
te. La salida de esta posición consiste en la reducción natural de la clase 
de intervalos confidenciales sujetos a investigación, procediendo del mismo 
modo que cuando reducimos las clases de criterios examinados en el 
9 6.7, es decir, introduciendo los conceptos de conjuntos confidenciales no 
desplazados e invariantes. 

Supongamos que, como antes, a cada 0 le corresponde el conjunto 
92(0), 0 ¿ 0110). 

Definición 4. El conjunto confidencial O*(X, £) para 9 de nivel 1 — s 
se considera no desplazado respecto a las alternativas 0', tales que 
0€81(0") si 

Po(0" €O*(X, 8) £ 1 — e para todos 0, 0', 0 € O2(0"). (6) 


El conjunto O*(X, e) se considera simplemente ro desplazado si (6) 
es válida para todos 0' yx 0. 

El no desplazamiento del conjunto confidencial significa que la proba- 
bilidad de que éste recubra el valor falso de 0' no es mayor que la probabili- 
dad de que el mismo recubra el valor verdadero. 

Definición 5. Los conjuntos confidenciales para los cuales se minimiza 
(4) en condiciones (1) y (6) se llaman conjuntos confidenciales no desplaza- 
dos más exactos ((de nivel 1 — €) respecto a las alternativas para las cuales 
0 € O2(0"). 

Teorema 4. 1) Los criterios no randomizados y no desplazados en- 
gendran, en virtud de la equivalencia (3), conjuntos confidenciales no 
desplazados, y al contrario. 
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2) Si Q(9,, €) para cada 0, € O es la región de aceptación de la hipótesis 
[0 = 0,) del criterio uniformemente más potente no desplazado y no ran- 
domizado, con una alternativa (0 € 92(0,)), entonces, el conjunto respecti- 
vo O*(X, £) será el conjunto confidencial no desplazado más exacto, y al 
contrario. 

La demostración del teorema repite por completo los razonamientos del 
teorema 1, a los cuales sólo es necesario añadir que la propiedad de despla- 
zamiento se conserva al pasar de los criterios a los conjuntos confidenciales 
y al contrario. En efecto, las relaciones (1) y (6) son equivalentes a 


sup Po(X € Q(01, e) $ l-eÉ Po (X€ a(1, E)). 
0€08 1101) 


Si r(X) es la función crítica de los criterios no randomizados que figu- 
ran en el teorema r(X) = 0 para X€ Q(6,, €)), entonces obtenemos 


Mox(X) = 1 — PoA(X EQ(,, e), 
inf Mor(X) > £€ > Mea, (A). 
0€91(01) 

Esta es, precisamente, la propiedad de no desplazamiento que equivale 
a (6). «< 

Si utilizamos los resultados del $ 6 y construimos el conjunto confiden- 
cial no desplazado y más exacto para el parámetro 9 de una familia expo- 
nencial, obtendremos el mismo intervalo confidencial (6” , 6* ) que hemos 
construido utilizando la monotonía de la relación de verosimilitud, o sea, 
el intervalo en el cual 06” y 9* son las fronteras inferior y superior más 
exactas, respectivamente, de niveles 1 — €£/2. 

4. Conjuntos confidenciales invariantes. La siguiente definición utiliza 
las designaciones y los conceptos del párrafo precedente. Sea (P+)] una fa- 
milia invariante respecto a G. 

Definición 6. El conjunto confidencial 9*(X, €) se lama invariante” 
respecto al grupo G si 


O*(gX, 6) = g0*(X, £) (7) 


para todos £ € G. 

El sentido de este concepto es análogo al de la estimación equivariante 
($ 2.19). Si las transformaciones £ y £ se interpretan como la sustitución 
del sistema de coordenadas que conserva la distribución, entonces (7) signi- 
ficará que el conjunto confidencial no depende del sistema de coordenadas 
en el que se expresan los datos iniciales. 


” Ateniéndose a la observación expuesta en la p. 195 del 5 2.19, sería más natural llamar 
el conjunto confidencial con propiedad (7), conjunto equivariante. 
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Definición 7. El conjunto confidencial O*(X, €) se denomina conjunto 
confidencial invariante más exacto de nivel 1 — e, si en él se minimiza 
P.(0" €8” (X, £)) para todos 0” + 0 en la clase de todos los conjuntos 
8* que satisfacen (7) y la condición P.(0€ O*(X, £) = 1 — €. Sea Y (0,, 
e) la región de aceptación de la hipótesis A, = (9 = 6,) cuando la alterna- 
tiva constituye (0 + 0, ) para el criterio invariante de nivel 1 — e, Nótese 
que hay una diferencia esencial en las definiciones del criterio invariante 
y del conjunto confidencial invariante (esta diferencia no existiría si se nece- 
sitara el cumplimiento de la igualdad eN(6, £) = Q(Z9, E) y no de la igualdad 
gQ(0, e) = 2 (6, e)). Con este hecho está relacionada la circunstancia de 
que la correspondencia entre los criterios invariantes uniformemente más 
potentes y los intervalos confidenciales invariantes más exactos tiene un 
aspecto más complejo que en los teoremas precedentes. 

Examinemos el grupo de transformaciones G y supongamos que para 
cada 9 en este grupo hay un subgrupo G([0,) que deja invariante el problema 
de verificación de la hipótesis Y, = (9 = 6,). Con otras palabras, 26, = 0, 
cuando g € G[6,]. 


Teorema 5. Sea O*(X, e) un conjunto confidencial de nivel | — e inva- 
riante respecto a G. Entonces 

1) La región 2 (0, e) = (x 0€ O? (a, £)) será invariante respecto a G[0] 
para cada 0. : 

2) Si la región Q (0,, e), correspondiente a O*(X, €), es la regln de 
aceptación de H, cuando la alternativa constituye (0 4 0,) para el criterio 
invariante uniformemente más potente de nivel 1 — e, entonces O* (X, €) 
será el conjunto inyariante confidencial más exacto. 


Demostración. 1) Supongamos que g € G[0]. Entonces £6 = 06, 
gQ(0, e) = lex 06€ O*(%, £)] = lx 0€ O" (g” lx €) = 
= (x 0€g"'0*(x €)) = lx 80€ 0*(x% £)) = 
= lx 0€0*(x £)]) = (0, €). 


2) Sea 0* cualquier otro conjunto confidencial invariante de nivel 
1 — e. Según la primera afirmación, a él le corresponde el criterio invariante 
de nivel 1 — e con la región Ú (01, e) de aceptación de H.. 

Como, por suposición, 


PAX EN (61, €) > Po(X € 3(0,, E), 
entonces 
Po(0, ES .UX, E) > Po(O, € Ó*(X, £)). 


cuando 0, x 0. Que es lo que se necesitaba demostrar. < 
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Ejemplo 2. Supongamos que X € L..,:. Se necesita construir el conjun- 
to confidencial más exacto para el parámetro o?, siendo desconocido «. 
En el ejemplo 2 del párrafo precedente hemos visto que la familia Y... 
es invariante respecto a las transformaciones de desplazamiento 
¿X=X+.ce si ga, 0)=(a+c 0%) La estadística  Sí= 

R 


= IS > | Ca — x)? es el máximo invariante construido según la esta- 
im1l 

dística suficiente. Además, la hipótesis H, = [gu = 0,) es invariante respec- 

to a G. Conforme al ejemplo 7.2, el criterio uniformemente más potente 


invariante y no desplazado para verificar H, tiene la forma 
hr.e0s < (n — SÍ < hd, (8) 


donde kh, , se deduce de las condiciones (véase la condición (6.7) del teore- 
ma 6.1): 


Pl. < xn-1< ha) = 1-€, 
M(x% - 131,2 < xa -1 < hje=(1- eMxi-,, 
XA 1 € Ha-1. 


El conjunto confidencial 9*(X, £) correspondiente a (8) tiene la forma 
del intervalo 


(n — 1)SÍ/h2.¿ < a < (n — 19Sj/h e. (9) 


Este intervalo es, evidentemente, invariante respecto a g, al igual que 
el criterio (8) (en este ejmplo Glo,| = G para cualquier 0,). Por lo tanto, 
en virtud de las segundas afirmaciones de los teoremas 4 y S, el intervalo 
(9) es el conjunto confidencial no desplazado e invariante más exacto de 
nivel 1 - e, 

Ejemplo 3. Supongamos que X € %..,:. Bs necesario construir el con- 
junto confidencial máx exacto para el parámetro a; cuando se desconoce 
o. Aquí 


2 
a, HA) = GA [- =— > Cu — a) 3 
La familia %. ,? será invariante respecto al grupo G de las transforma- 
ciones lincales ¿£X = aX + b si se pone g(a, 0) = (aa + b, =40). El par 
de observaciones (X, si ) forma una estadística suficiente. Es fácil ver que 
con su ayuda no se puede construir una estadística que sea invariante res- 
pecto a G. No obstante, para cada «, se puede separar un subgrupo Gl[a,] 
de transformaciones 2X = a(X — a) + or, respecto al cual la estadística 
(x — a:1)/So será el máximo invariante. La hipótesis H, = [a = a, ] queda 
invariante respecto a G[«1]. Investigando la densidad (x — «¡)/Sp) se puede 
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mostrar, con ayuda de los métodos del $ 7 (omitimos estas consideraciones 
puesto que son muy complicadas”), que para cada ad, el criterio uniforme- 
mente más potente no desplazado e invariante para verificar la hipótesis 


H, frente a [a * a) existe y tiene una región de aceptación de H, en forma 
de 


Ynlx — ul/So < Te, (10) 


donde 7, se determina de la condición P(l»-1| > 72) = €, ftn-1 € Tr-1. 
El conjunto confidencial respectivo O* tiene la forma 


Xx = 1So/Vn <a< X + TeSo/ YN. (11) 


Es fácil ver que este intervalo confidencial es invariante (O*(gX, 
£) = £9*(%, £)). Según la primera afirmación del teorema $5, el criterio 
(10) será invariante respecto a G [a]. De acuerdo con la segunda afirma- 
ción, el intervalo confidencial (11) será el criterio confidencial más exacto 
(uniformemente respecto a o) no desplazado e invariante de nivel 1 - e. 

Ahora bien, en este párrafo hemos establecido que todos los intervalos 
confidenciales construidos en el $ 2.32 son, en cierto sentido, óptimos. 


$ 9. Enfoques bayesiano y minimax de la verificación de 
Jas hipótesis compuestas 


1. Criterios bayesianos y minimax. En el $ 4 hemos descrito los enfoques 
bayesiano y minimax. Allí mismo hemos dado las definiciones respectivas 
que recordaremos en la exposición posterior. 

Supongamos, como antes, que se verifica la hipótesis H, = (0 € 0)) 
frente a H, = (0€ 02), basándose en la muestra X € P+ 

El enfoque bayeslano completo supone que O se elige al azar con la 
distribución a priori Q en 9 = 8,U8,. La distribución Q induce las distri- 
buciones Q; en €,, i = 1, 2 y las probabilidades q() = Q(0 E 9;), así que 
Q = ¿(M0: + q(210Q7 Designemos por Ho, la hipótesis de que 0 € O, se 
elige al azar, con la distribución Q;. Según esta hipótesis, X tiene la 
densidad 


Sel) = | Se)Qído. 


Se entiende, por supuesto (véase el $ 4), que en 0, están definidas las 
a-álgebras de o, a base de las cuales se eligen Q, y que fo(xr) es medible 
respecto a €, x B"2Z 

De los resultados del $ 1, 2 se deduce que el criterio bayesiano ro para 
verificar Ho, frente a Ho, en el problema descrito anteriormente tendrá 


% Esto se expone más detalladamente en [57], p. 312. 


la forma 


L si Ja (AO > Ya CO, 
TAX) = 3 Pp Si fe) = Led, (1) 
0, si fo(O < dea, 


donde c = q(1)/g(2), p€l0, 1) es arbitrario. 

El enfoque parcialmente bayesiano está relacionado con la verificación 
de la hipótesis Ho, frente a Ho, en el caso cuando falta la distribución 
a priori entre Ho, y Ho, (que se define por las probabilidades q(1) y q(2)). 
Pongamos 


K = 1rMar(0 < el. 


Entonces el criterio ro,o, se llama bayesiano en re ' si éste es el c.m.p. 
de nivel 1 — e£ para verificar Ho, frente a Ho,. El criterio ro,o, tendrá la 
misma forma (1), donde c y p se eligen de la condición Mo, Too. (X) = €. 

En vez de ro,q. escribiremos ro, y To, si uno de los conjuntos 8, o 
O: se degenera en conjunto de un punto (0,] o (f6»). 

En las aplicaciones rara vez se encuentran problemas en las que las 
distribuciones Q; son completamente conocidas. Sin embargo, ya hemos 
visto repetidas veces que la utilidad del enfoque bayesiano no se limita 
exclusivamente a la posibilidad de aplicarlo directamente. Este enfoque per- 
mite construir los c.u.m.p., y también los minimax (compárese con los 
$5 1, 5 y 6). Posteriormente utilizaremos el enfoque bayesiano también para 
construir los criterios asintóticamente óptimos. Sea, como antes, 


K, = [*: sup Mer(A) < e). (2) 
13 =N) 


Entonces el criterio, * se denomina minimax en XK, (en Ke ') si 
TEK.(TEK: ), y para él se minimiza 


inf Mor(X) = inf A(0). (3) 
06012 0€08, 


Cabe señalar que si las funciones de potencia 8(0) = Mar(A) son conti- 
nuas y los conjuntos O, y 6 se tocan, entonces 


bsp 80 «e S 


y la desigualdad 8 > e no puede cumplirse. Por eso, si se desea que la poten- 
cia garantizada (3) sea suficientemente grande (en todo caso, mayor que 
e), conviene examinar los conjuntos “separados” 9, y O, Con otras pa- 
labras, es necesario eliminar la zona de los valores de 6, donde £(0) es próxi- 
ma a e como zona de “indiferencia” de los criterios, y examinar, en calidad 
de O;, el conjunto que no toca 0,. 


23—8030 
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No obstante, si los conjuntos se tocan, todo criterio no desplazado en 

Ke será minimax. En efecto, para los criterios no desplazados f(0) = 

= Mo r(X) > e, 0 € O, y, por lo tanto, $ = inf 8(0) > e alcanza, en vir- 
€8) 


tud de (4), su valor máximo. 
La afirmación inversa es cierta en el caso general: el criterio minimax, 
si existe, no está desplazado. Esto se desprende del hecho de que 


Bs sup inf B(0) > £ 
mEKe dE€02 
(podemos tomar r(X) = €) y del hecho de que para el criterio minimax 
inf 8(0) = B. 
6€02 


El criterio uniformemente más potente no desplazado T en la clase K. 
de todos los criterios no desplazados, es minimax en K¿. En efecto, sea 


B(0) la función de potencia del criterio +. Entonces, para cualesquiera 
mE K., 0 € 8, 


B(0) > 810), inf B(0) > inf f(0), 
0€9, 90, 
inf A(6) = sup inf 8(0) = sup inf 8(0). (5) 
vE82 "ek, "92 "EKE 90) 


La última igualdad se explica por el hecho de que la adición a K, de los 
criterios de Ka, para los cuales inf 8(0) < e, no cambia la magnitud sup 
0€01: rEKe 
en (5). < 
En el teorema $.3 hemos utilizado los criterios bayesianos para determi- 
nar el cu.m.p. La siguiente afirmación es cierto “desarrollo” del teorema 
5.3. La misma también es el análogo de los teoremas 1.2 y 2.11.2 y establece 
que los criterios minimax han de buscarse en la clase de criterios (1) cuya 
forma explícita conocemos. 


Teorema 1. Supongamos que existen las distribuciones Q, concentradas, 
respectivamente, en los conjuntos OC 8,, i= 1, 2, y las constantes e y 
p tales, que el criterio xo.0., definido en (1), poseen las propiedades 


1) roo, € Ko", 
2) Morga) = sup Moxro,o (AX) (6) 
para todos 0 € O?, 
3) Moro. 0. (A) = JAN Moro a (A) (0) 


para todos 0€ O]. 


Entonces *o,0, € K. es precisamente el criterio minimax en K, para ve- 
rificar H, frente a Ha. 
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El par de distribuciones Q, y Q2 que posee las propiedades 2) y 3) es 
el menos favorable en el sentido de que para cualesquiera dos otras distribu- 
ciones Q; y Q, 

inf M inf 05» 
nf Mera, € inf Mero;os 
donde wo¡o; es el criterio de forma (1) de Ke. 
La última afirmación significa que entre todos los criterios bayesianos 


(1), el criterio roo, posee la potencia menos garantizada. 
Demostración. Como 


sup Morg.9(X) = ] Moro.0.Q1(d0) = Ma,To.o, = €, 


entonces ro,q, € K.. La potencia garantizada roo, es igual a (véase (7) 
inf Mero 9X) 5 ] Moro,0,0:(d0) = Mo,ro.q: = Poo, (8) 
1 


Sea ahora * cualquier otro criterio de K. para verificar HA, frente a Ha. 
Entonces xr será simultáneamente el criterio de K?' para verificar Ho, 
frente a Hg,, ya que 


Mo T(A) = ] Mor(X) 01(d0) < supMer(A) < £. (9) 
? 


Pero el criterio roo, es el c.m.p. en e * para verificar Hg, frente a Ho,. 
Por consiguiente, en virtud de (8), 


inf Moro. o (A) = Bao: > Mo, (A) > inf Mor(A). (10) 
$€082 092 


La primera afirmación del teorema queda demostrada. Sean ahora Q; y 
Q; cualesquiera dos otras distribuciones en O, y 6), respectivamente. El 
criterio osos, al igual que ro,p,, será el criterio de Ke! para verificar Hg; 
frente a FHo;, ya que 


Mo;¡ro.o(X) = ¡ Moro. o (ADQ¡(d0) < sup Mora. X) E €. 
61 


Pero el criterio ro;os es el c.m.p. para estas hipótesis, por eso, en virtud 
de (8), 


Bojo; = Mo;o¡03 (45 2 Mos ro. a (A) = 
= [ Morga X)Q4(89) > inf Mera) = Baras. < 
EA 


La principal dificultad en la aplicación del teorema 1 a los problemas 
reales consiste en buscar (o adivinar) las distribuciones menos favorables 
Q: y Q» En este caso a veces pueden resultar útiles las consideraciones 
de invariación, así como ocurre en los ejemplos del apartado siguiente. Es- 
tos ejemplos tienen interés autónomo y se utilizarán posteriormente. 


93+ 
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2. Criterios minimax para el parámetro a de distribuciones normales. 

Ejemplo 1. Supongamos que X = x;, G $,” es una muestra de volumen 

n = 1 de una distribución normal m-dimensional con media a = (a, ..., 

am) y con matriz unidad de segundos momentos. Designemos 
m 


Jla?| = D; a* y examinemos el problema de verificación de la hipótesis 
| 


H, = [la] < a) frente a H = (ja| > b3, b > a (aquí hay una zona “sepa- 
radora” a < la| < b). 

Si, por ejemplo X determina (en un canal de comunicación) las amplitu- 
des de la señal vectorial compuesta por el “ruido” Xy E Ho, y por la señal 
útil a, ja] > b, las hipótesis A, se pueden considerar, para a = 0, como 
hipótesis de la presencia de la señal útil. 

En vista de que el ejemplo sujeto a examen se utilizará repetidas veces 
posteriormente, la afirmación referente a la forma del criterio minimax será 
enunciada en forma de teorema. 

Teorema 2. El criterio minimax + € K¿ para verificar H; = [la|) < a) 
frente a Hz = (lo) > b), a < b, según la observación X € Po, E, tiene la 
forma 


_ (si | ><, 
in (o, si 1X] < Co, 


donde c. se elige de la condición pe(a) = e, la potencia garantizada + es 
igual a peXb), 


pro > PUE - O + Es .. +E5>c?), 
ti € o., son independientes. 


Demostración. Comencemos por consideraciones sugestivas. En nuestro 
caso, para x=(xY, ..., x“" tenemos 


Ja(x) = IIS f- > (x — ax — ay] ; 


donde x? es el vector columna, De aquí se deduce que la familia de distribu- 
ciones espuesta a examen es invariante respecto a la transformación ortogo- 
nal gx = xC, donde C es la matriz de la transformación ortogonal en R”. 
En este caso hay que poner ga: = aC. Las hipótesis H, serán invariantes 
respecto a E. 

Supongamos, para abreviar, que a = 0. Si la distribución Q: en 
02 = (a:lo:] > 5) no manifestara invariación respecto a £ (así sucederá, por 
ejemplo, cuando la misma se halle concentrada en el entorno de cualquier 
punto xo), entonces, esta asimetría podría utilizarse, de una u otra manera, 
para resolver tal problema (con la suposición que acabamos de hacer esta- 
ríamos próximos al problema de verificación de dos hipótesis simples 
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la =0)], la: = xo) y en este caso obtendríamos un criterio de gran poten- 
cia). Por lo tanto, dicha distribución no puede ser la menos favorable. Esta 
debe ser la distribución Q», invariante respecto a g. Además, está claro que 
obtendremos la peor variante si toda la distribución permanece concentrada 
en la frontera O, (cuanto más semejantes sean las hipótesis, tanto más difí- 
cil será distinguirlas). Se pueden citar razonamientos sugestivos análogos 
respecto a Q,, si a 0. 

Así pues, es natural que en nuestro ejemplo las distribuciones menos 
favorables Q, y Q2 sean distribuciones uniformes en las esferas O, = 
= la: ja| = a) y O = (a: ja| = b). En este caso, de acuerdo con el teore- 
ma 1 el criterio minimax rx tendrá la forma x(x) = T1g,0,(), donde 
TOQÍ() = 1 si 


| ap | 3 (e ví - o] => 
03 


> | exp (-36- lx - ne a) 


y Toc: (x) = O en el caso contrario. Aquí dV(v) significa el área del ele- 
mento de la esfera correspondiente, V, = mes8f ¡ = 1, 2. 

Bxaminemos cualquiera de estas integrales, por ejemplo, la derecha, y 
notemos que ésta puede ser escrita en la forma 


exp (q - ay | exp (xu*) le 


el 
Aquí la integral es igual a 
í exp (|xJae:v"3dV(v)/V, Y = mes e, 
e* 


donde O” es la superficie de una esfera unitaria, e, = x/|x]. Por consiguien- 
te, si designamos 


Y = | exp [tez jdV(0), (12) 
e” 
entonces, la región (11) de aceptación de FI2 tendrá la forma 
Yv(x]b) > cy(|xja) (13) 


(aquí, por e designamos las constantes que no coinciden obligatoriamente 
con el valor en (11)). Pero, evidentemente, y(f) no depende de x, puesto 
que el valor de la integral (12) no depende del sentido de dirección del vector 
unitario ex. Por eso 
Y) = | exp (tu )dV(o), 
o: 
donde v, es la primera coordenada del vector u. 
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Como y *(0) = 0, y“ (1) > O cuando £ > 0, entonces y (1) es una función 
convexa creciente en [0, .o). De aquí resulta que la desigualdad (13) u (11) 
equivale a 


bd > e. (14) 


Esto es, evidentemente, un criterio invariante. Comprobemos para él el 
cumplimiento de las condiciones 1—3 del teorema 1 y establezcamos asi- 
mismo que ello es el criterio miínimax. 

Tenemos 


Mero e tA) = Pal[X] > Cc) = Po.g( Ex: |x — aj > c)). 


Está claro que el traslado del punto « en la esfera lo] == const no modifica 
dicha probabilidad. Por lo tanto, esta última sólo depende de |a| y, por 
consiguiente, 


M.ro.2 = P(1£ — af? > e?) = 


Pm 
= Pl Y) (E - ay >= P(t — Jal? + +... +4>0), 
j=] 
donde ¿; € Ho, son las coordenadas independientes del vector ¿. 
Lema 1. La función pt) = P((E: - 19 + E +... + EL >) es para 
cada c la función creciente |1|. 
De este lema se desprende que 


Mora (A) = pellal) < pe(a) cuando far] < a, 
Mera. (A) = pellal) > pe(b) cuando [a| > b. 


Estas relaciones equivalen a las condiciones 2) y 3) del teorema 1. Para 
que el criterio ro,o, sea el criterio de nivel 1 — £, debemos suponer que 
c es igual a la solución c¿ de la ecuación p¿(a) = e. Ahora bien, roo, es 
el criterio minimax de nivel 1 — e y su potencia garantizada es igual a 
peKb). < 

Demostración del lema 1. Como p¿(t) = pel — 1), podemos limitarnos 
a examinar los valores de f > 0. 

Examinemos primeramente el caso de rr = 1. Designemos en este caso 
la función p¿(t) por p(t). Tenemos 


PO = PE — e? > 0?) = (1 - 0) + 1- (+0). 
Por consiguiente, la derivada respecto a / es igual a 


p'w) == [e 


-(t-cP/2 _ e e+rn/ay = 


ar e A+PPR Ig = e7*] >0 
TW 
y la función p(1) crece cuando t > 0. 
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Cuando m> 1 la función p.(t) es la convolución de la función 
p(t) = p(t, c?) con la distribución x? de m — 1 grados de libertad: 


pat) = $ p(, c* — ud H- (u). 
0 


Evidentemente, ésta también es una función creciente de / paraf >0. «< 

En lo que se refiere al teorema 2 se puede señalar lo siguiente. Suponga- 
mos, para abreviar, que a = O. Entonces, la hipótesis H, = [a = 0) será 
simple. Si construimos el c.m.p. para cada alternativa a € 8, obtendremos 
el criterio que tiene la forma 


Xo>Ce 


Esto significa que cada sentido de direccción de a = ot, 40€ 85, t> 1 
tendrá su propio criterio más potente de nivel l — € 


xo > Cs, (15) 


donde <c¿ depende únicamente de € ya que Mo(Xao) =0. 
Do(Xao) = leo]? = b. Pero la región crítica del criterio minimax (invariante) 
debe ser igualmente sensible respecto a todas las alternativas. En concor- 
dancia con esto, la misma tiene forma de unión de los semiespacios (15), 
que no es otra cosa sino el exterior de la esfera. 

Ejemplo 2. Ahora supongamos que X = x¡ € %a,.*, donde o? = llayl 
es una matriz arbitraria de segundos momentos, definida positivamente. 
Examinemos el problema de verificación de la hipótesis 
H, = fao"*%a* <a?) a (lauo”'| < aj frente a Hi = (007?%a* >b*] = 
= (leo”'| >bj, a < b. Del teorema 2 se deduce el 


Teorema 2A. El conjunto crítico del criterio minimax de nivel 1 - € 
para verificar H, frente a Ha tiene la forma 


xa" ?*x” > ci 


y la potencia garantizada p«(b), donde c¿ es, como antes, la solución de 
la ecuación pe(a) = €. 


Demostración. Pongamos gx = xo y motemos que, en virtud de (7.3), 
Pa, HA) = Peto, (24), 
donde £(w, E) = (a, 0”). Para la esfera A = (x |x| < c] tendremos 


BA = ly=x0: xa <c]= (yo yo"?*y<e), 
PL HA) = Pasrllx xo"? < ey). 


(16) 
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El conjunto (ar Ja| < a) pasa, después de la transformación g, al con- 
junto (8 = ariaa? < a?) = (8:B07?8? < a*). 

Ahora bien, todas las relaciones establecidas en el ejemplo 1] para 

$. (4) cuando la <a o cuando la| > b serán válidas para 

bantíx:x0"*x" <c”)) cuando |6; '| <a o bien |B; '| >b, respecti- 
vamente. 

Esto demuestra el teorema 2A. < 

Ejemplo 3. Volvamos a examinar la muestra de la distribución normal 
d. É con una matriz unidad de segundos momentos. Sin embargo, a distin- 
ción del ejemplo 1, las hipótesis H; sometidas a comprobación sólo tocarán 
una parte de las coordenadas del vector «. Representemos a en forma de 
un conjunto de dos vectores «+ = (a”, a”), donde a* =a1, ..., a), 
a” = (+1, - - -, Om), Y examinemos el problema de verificación de la hipó- 
tesis A, = (la ”| < a] frente a Ha = (la ”| > b], conforme a la muestra 
X= X1 = (X1, 1, +. ., X1,m) de volumen » = 1. Para cada una de las hipóte- 
sis, la magnitud a” puede adoptar un valor arbitrario. Procedamos del mis- 
mo modo que en el ejemplo 1, pero en calidad de Q, y Q2 escojamos las 
distribuciones uniformes en las “esferas” Oj = faja”| = a, a = a), 

= [a:la”| = b, a* = a), donde ay es un punto registrado cualquiera. 
Si  deslgnamos Xp = (X1,1) ---> X1,0), Xi = (X1.0+1+ +. ., Xim), Obtendremos 
como resultado el criterio minimax 


[x71 > Ce, 
donde ce es la solución de la ecuación 
P((5- a + Es... +8_,>0%=e (17) 


(los factores exp (- 7 (x" — aMxa” — asY| en la desigualdad 


falO+fo (A) > c serán eliminados, y ésta se convertirá en una igualdad 
del tipo (11)). Este resultado es completamente natural, ya que en nuestro 
caso las coordenadas x;,,; son independientes y, por lo tanto, el subvector 
xí no lleva en sí ninguna información respecto a a”. Por eso, de toda la 
muestra X = x, sólo es suficiente examinar el subvector xf' y, en este caso, 
el problema se reduce al ejemplo 1. 

La verificación de las hipótesis en el ejemplo 3 pertenece a la clase de 
problemas en que existe el llamado parámetro “obstaculizador”. En nuestro 
caso, en calidad de tal parámetro servía el vector a:*. En virtud de las causas 
mencionadas anteriormente, éste en realidad no obstaculizaba la construc- 
ción del criterio minimax, el cual automáticamente resultaba independiente 
de a”. 

De manera algo diferente ocurre en el ejemplo siguiente, más general, 
cuando las coordenadas x,, son dependientes. 
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Ejemplo 4. Supongamos que X = x, € d. o. Examinemos el proble- 
ma de verificación de la hipótesis 


H, = lad"*a? < a?) frente a Hz = (ad"*a* > b?), (18) 


donde d”? es una matriz definida no negativamente de rango m — |< m, 
obtenida de o”? a base de sustituir por ceros los elementos de cualesquiera 
¿ renglones y / columnas (con los mismos números de orden). Para facilitar 
la exposición podemos considerar que, para la matriz definida positivamen- 
te 0 2 de orden (m -— | x (m — I), inversa a la matriz 
a =Mar(xj - a" - a”), 

formada por las últimas m — / columnas y renglones de la matriz 
a* = lol, se verifica la hipótesis Hi, = (a” oz tarTE a?) frente a 
Ha = la"oi *a"” >b?), donde xf, au” designan, al igual que en el 
ejemplo anterior, los mismos subvectores de los vectores x, y a. En cada 
una de las hipótesis A, el parámetro obstaculizador a” puede ser arbitrario. 

Hablando en general, en este ejemplo, la distribución de x; depende 
de a+”. Hagamos la siguiente transformación para convertir x, en vector 
con coordenadas “ortonormalizadas”. Pongamos 


Y =x14, (19) 


donde A = lla¡y¡Y es una matriz triangular con elementos ay = 0 j > ¡. Los 
restantes elementos se eligen de la condición y € Ls £, donde $ = (Bi, ... 
...» Bm) = aA. Esto siempre se puede hacer, ya que de (19) obtenemos 
Ym = X1,mÚUm, m» 
Ym-1 S X1,mÚm,m- 1 + X1,m- 10m -1,m-1> 


De aquí y de las condiciones 


Me. (Yi — BN? = 1, 
Mo,r(y: — BiXy; — Bj) =0, 1% Jj, 
se determinan uno tras otro los valores 


atm = 1/0m,m- 


O0m,mGm,m-1 + Om-1.m4m-1,m=13 = 0, 
Om, mÚm,m-—1 + 20m, m — 10m,m - 14m — 1, — 1 + A A = 1, 


Ahora bien, la matriz triangular A es tal, que 
Ma, (y — BY y —8) = Ma. A (1 — 00) x1 — a) A=A70?A=E. 
Del carácter triangular de A se deduce que el vector $” = (Br+1, ..., Bm) 
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depende únicamente de a”, y al contrario. Si designamos por Az la matriz 
triangular de orden (m - /) x (m -— f), obtenida de los últimos m — / 
renglones y columnas de la matriz A entonces, obtenemos, evidentemente 
8” =0a”A2, AlodAz = E. El conjunto O, = (a:a”oz a”? < a?) se con- 
vertirá en el conjunto 


(68: Boa, a “o a” <a] =18: BA 10 A "8" 358) > 
> (8: 878" <a) = (6 [B| <a). 


El “subparámetro” $” puede ser arbitrario si es arbitrario a”. 

Hemos llegado al problema del ejemplo 3. El criterio minimax de nivel 
l-e€ Para verificar H, frente, a Ho» tiene, por consiguiente, la forma 
y"y"7 > € 0 bien (A24Í = 07 ”) 


x/0z Xi >Ce, 
donde c. es la solución de la ecuación (17). 


El último ejemplo es el más general entre los ejemplos 1-4. El mismo 
resume el contenido de estos ejemplos de la manera siguiente. 


Teorema 2B. Si a base de la muestra X = x1 € da, se verifican las 
hipótesis (18) relacionadas con el valor «,d 7 *a*, entonces el criterio mini- 
max de nivel 1 — e tendrá la forma 


dx ><, (20) 


donde c. se define en (17), y m - l es el rango d”?. 
La potencia garantizada del criterio (20) es igual a 


PE DNS BR... + ym-1>Ch € Pos. 


Si la muestra X tiene volumen nr, entonces x € La,» tendrá la forma 


El siguiente ejemplo tiene, en cierta medida, otro carácter. 

Ejemplo 5. Supongamos, al igual que en el ejemplo 1, que 
X =x1 € La. es una muestra de volumen rn = 1 de una distribución nor- 
mal m-dimensional de medía a = (a,, ..., %m). Supongamos también, que 
FH, = (a = 0) y que la hipótesis Ha consiste en que a: pertenece a cierto 
conjunto 8, que no contiene los puntos a € O2. Designemos por 6, la 
clausura convexa del conjunto €, (conjunto cerrado convexo mínimo que 
contiene 0), y sea 8 el punto de 9 más próximo al origen de coordenadas. 
Entonces, si $8 € O, la distribución Q. concentrada en el punto £ será la 
menos favorable, y el criterio minimax r tendrá la forma r(X) = 1 si 


(X-BHNX-PBP<XxxXT+c, 
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o bien, que es lo mismo, si 
xp7/18| > az, 


donde cz se elige de la condición * € Ko. 
En efecto, es suficiente comprobar la condición (7). Tenemos 


M.T(X) = Pe(XB”/18| > 2), 
donde X8?/|8| € Pas"/18|,1, así que 
M,T(X) = 1 — P(c — a8”/|B)). 


Ésto significa que el mínimo M¿T(A?), a € O, se alcanza para a; que minimi- 
za la función afB7/|8| Pero es evidente que af8”? > Bg” = |Bj? para todos 
a € O, así que 


Mer(X) = inf Mar(A). <a 
at02 


Le proponemos al lector que construya el criterio minimax conforme 
a ese mismo problema, es decir, cuando X € Y. .2, a? es una matriz ar- 
bitraria de segundos momentos. 

3. Distribuciones degeneradas menos favorables para las hipótesis unila- 
terales. Supongamos que X € Po, donde 0 y los elementos x; de la muestra 
X son reales. 

Supongamos además, que verificamos la hipótesis unilateral 
H, = [0 £ 0,1] frente a H = (6 > 02) siempre que haya una “zona de indi- 
ferencia”” no vacía 6, < 0 < 0. ¿A qué condiciones las distribuciones me- 
nos favorables quedarán concentradas en los puntos 0, y 62? Pues en este 
caso el criterio minimax * de nivel 1 — e tendría una forma muy simple: 


l, si Fe) > cfo (A) 
TA) =2B si fol) = Y LO, Q1) 
O, si AO < e. 10, 


donde p y c se definen por la igualdad Mo, T(X) = e. 

Ya sabemos que si la relación de verosimilitud es monótona, tal criterio 
será el c.u.m.p. y, por consiguiente, también será minimax. La siguiente afir- 
mación ofrece otra condición suficiente para que el criterio sea minimax. 


Teorema 3. Supongamos que la densidad f(x) posee la propiedad de 
que la relación fe (x)fe(x) no decrece respecto a x para cualesquiera 
9> 9. Entonces las distribución Q, y Q, menos favorables estarán con- 
centradas en los puntos 0, y 0, respectivamente, y, por lo tanto, el criterio 
QM será minimax. 


364 CAP. 3. TEORÍA DE VERIFICACIÓN DE HIPÓTESIS 


Demostración. Supongamos primeramente que n « 1. Según las condi- 
ciones del teorema, habrá a <b tales, que fo-(x)f0x) < ] cuando 
x€(—o, al, fo (00/fe(x) = 1 cuando x€ (a, b) y fo (10)/f(x) > 1 cuando 
x€ [b, «). Como r(x) no decrece, entonces r(b) > r(a) y 


Mo T(X) - Mor(X) > 
A MA 
-a b 


= (x(b) - T(a)) ) Ye 0) — fe uldx) > 0. 


Si n > 1, para obtener esta misma desigualdad es necesario valerse de 
la integración sucesiva (primero respecto a x,, luego respecto a x2, etc.) 
y del hecho de que T(X) no decrece con arreglo a cada uno de sus argu- 
mentos. 

Ahora bien, hemos establecido que la potencia 6(0) = Meyx(X% es una 
función no decreciente. 

De aquí se deduce que el nivel de r es igual a l-—e€ y que 
B(01) = sup B(0) y B(02) = e £(0). Esto significa que se cumplen todas 

1 > 02 


las condiciones del teorema 1. El teorerna 3 queda demostado. < 

Si 0 es el parámetro de desplazamiento: fox) = f(x — 0), se puede 
mostrar que fe: (x)/fo(x) será monótona respecto a x si y sólo si la función 
—In f(x) es convexa (véase [$7)). 


$ 10. Criterio de la relación de verosimilitud 


En los párrafos anteriores hemos obtenido varios resultados concernientes 
a la construcción de todo género de criterios óptimos. Una deducción im- 
portante que se puede sacar de las consideraciones citadas consiste en que 
estos criterios óptimos sólo existen en condiciones bastante limitadas. En 
la teoría de la estimación hemos tenido, aproximadamente, la misma si- 
tuación: las estimaciones eficientes también existen únicamente en condi- 
ciones limitadas. No obstante, en el capítulo 2 hemos visto que si se examina 
no la propiedad exacta de eficacia, sino la propiedad asintótica, entonces 
las estimaciones que poseen esta propiedad ya existen muy a menudo en 
condiciones relativamente amplias, relacionadas casi siempre con la regula- 
ridad de la familia (P+]. Tales condiciones son las e.v.m. 

Otra expresión de la optimización asintótica de la e.v.m. consiste como 
hemos visto, en que las e.v.m. son asintóticamente equivalentes a las estima- 
ciones bayeslanas para cualquier distribución a priori suave registrada, 

En la teoría de verificación de las hipótesis, cierto análogo de la e.v.m. 
es el llamado criterio de la relación de verosimilitud (c.rv.). En caso de 
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amplias suposiciones, el referido criterio coincide con los criterios óptimos, 
si tales existen, y resulta asintóticamente equivalente al criterio bayesiano 
cuando 6, = (6, ) para cualquier distribución a priori suave registrada Q» 
en 0. Esta propiedad y una serie de otras propiedades asintóticas del c.r.v. 
serán establecidas en los párrafos inmediatos. 

Demos la definición del c.r.v. Supongamos que en el caso paramétrico, 
cuando X € Po, se verifica la hipótesis MH, = (0 € O, ] frente a la hipótesis 
H = [0€ 6). 

Definición 1. El criterio r(X) con la región crítica 


se llama criterio de la relación de verosimilitud (c.r.v.) para verificar la hipó- 
tesis H, frente a FL. 
La constante c suele elegirse de la condición 


sup PARIO >0 18, (2) 
9€01 


para la cual el c.r.v. tendrá un nivel de 1 — e. 

A la par con el criterio (1) a menudo se examina un criterio que, de 
hecho, equivale al primero (también llamado c.r.v) y que tiene la forma 
siguiente: 


ZE Fee (X) 
R a ——_——— == A AKÁ Y (3) 
NS sup fAX) sup fs(X) 
181 961 
La semejanza de estos criterios se desprende del hecho de que cuando 
8 = 0,/U06,, 


So-(X) = máx( sup fe(X), sup So(X] 
óC8081 €62 


y, por lo tanto, RI(A) = máx (1, R(AX)). 
Si la hipótesis HH, es simple: 9, = (0,], Hi = (0 + 0,), así que 
89: =0 5 (0), entonces para fe(x), continuas respecto a 0, tendremos 


R(X) = RA) = ford fe (A). 


Según su forma, el criterio (1) generaliza de un modo natural el c.m.p. 
para verificar las hipótesis simples en el lema de Neumann—Pearson. Y 
aunque en el caso general este criterio no tiene, por lo visto, exactas pro- 
piedades de optimización, a menudo resulta ser el mejor asintóticamente 
(véanse los $$ 13—-16). 

Muchos criterios invariantes y minimax no desplazados, examinados 
más arriba, son los c.r.v. En calidad de ilustración examinemos los ejemplos 
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9.1—9.4 donde se construyeron los criterios minimax para el parámetro o 
de poblaciones normales. En todos estos ejerrplos, los criterios minimax 
son los c.r.y. Demostrémoslo. Los problemas de los ejemplos 9.2 y 9.4 se 
han reducido, con una exactitud de hasta las transformaciones lineales del 
parámetro, a los problemas de los ejemplos 9.1 y 9.3. En vista de que la 
relación de verosimilitud (1) no depende de tales sustituciones (al variar 
respectivamente las regiones €), es suficiente examinar tan sólo los 
ejemplos 9.1 y 9.3. 
En el ejemplo 9.1, a base de una muestra X € %,,, de volumen unitario 
y procedente de una población normal multidimensional con una matriz 
unidad E de segundos momentos, hemos verificado la hipótesis 
H, = [la| < a) frente a  = (Jaj > b], a < b. Resultó que el criterio mi- 
nimax tiene la forma 
LX] > c. (4) 


En nuestro caso, sup fe(X) se define por el valor 
98 
inf (X - aX - a) = inf |X — al?, 
a€8; 06082 


así que para la estadística R(X5) en (1) tendremos 


- (M1 - BY, six] <a, 
in R(X) = (0 0 +0 a, sia<|X<b 
- 3 (X) - ay, si IX] >b. 


Esta es una función creciente continua de |X]. Por eso las regiones (1) y 
(4) coinciden para valores convenientes de c. 

Le proponemos al lector que él mismo se cerciore de que en este ejemplo 
el criterio (3) también tiene la forma (4). 

En el ejemplo 9.3, a base de la muestra Y E %,,£ de volumen unitario, 
hemos verificado la hipótesis H, = (la”| < a) frente a FR = [la”]| > b), 


donde a” = (04+t, ..., Om) es un subvector del vector a: constituido por 
sus últimas rm — [l coordenadas. El criterio minimax tiene la forma 
[IX] > c, (5) 


donde X” está constituido por las últimas m — / coordenadas del vector 
X. Pero en este caso 


inf (X-a(X-aA= inf. (X” -a”XX” - a” y. 

at8 | a”: a”| <a 
La desigualdad análoga es válida para O. Por eso todo se reduce a las 
consideraciones del ejemplo 9,1, y los c.r.v. (1) y (3) coincidirán con (5). 
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En condiciones del $ 5, los cu.m.p. allí construidos para las familias 
exponenciales 


fox) = (0) TW h(x) (6) 


también coincidirán con los c.r.v. El lector puede comprobar esto personal- 
mente, notando que la función 


e(8) = Inc(9) = —In (fe hu" (dx) 


es convexa, puesto que p'(0) = —MoT, y” (0) = — DeT7 < O. De la convexi- 
dad de e se deduce la solubilidad unívoca de la ecuación 


e"(0) + TOO =0 


para la ev.m. 0* = y(T) y la monotonía de la función p. En este caso, uno 
de los su Jfe(X) se alcanzará en el punto é6*, y el otro, en los puntos 6; 
o 02 ¡ 

La verificación de la referida afirmación para las familias normales 
%..2, que son un caso particular de (6), se expone en el $ 15. 

Es algo diferente el asunto examinado en el ejemplo 9.5, donde, de 
acuerdo con la muestra X€ +. hemos verificado la hipótesis 
HH, = (a = 0) frente a Hz = (a € 02). Se supone que el conjunto O y 
su clausura convexa 0 no contienen puntos a = O. Si el punto 4 más próxi- 
mo al origen de coordenadas del conjunto 0» pertenece a 8,, entonces 
el criterio minimax existe y tiene la forma siguiente: 


xp” ><. (7) 
Este criterio no es invariante respecto a cualquier grupo de transforma- 


ciones. Le proponemos al lector que él mismo se cerciore de que en este 
caso el c.r.v. es distinto de (7) y tiene la forma 


e (X, 02) — eX, 0) << 
donde ¿(X, 0») = inf [X = al, q(X, 0) = |X]. 
atO2 
Ahora demostraremos que cuando se cumplen ciertas suposiciones, el 
criterio de la relación de verosimilitud posee propiedades de invariación. 
Sea G cualquier grupo de transformaciones en 2”, respecto al cual el 


problema de verificación de las hipótesis FI y Fl es invariante, y sea G 
el grupo respectivo de transformaciones g en O. 


Teorema 1. Si f(x) posee la propiedad 
olx) = cl xgo(x), (8) 


entonces el criterio de la relación de verosimilitud es invariante respecto 
a G. 


368 CAP. 3. TBORÍA DB VERIFICACIÓN DE HIPÓTESIS 


En cuanto a la condición (8) diremos que la misma siempre se cumple 
cuando y es la medida de Lebesgue, y £, la transformación que conserva 
esa medida (desplazamiento y giro). En este caso c(g, x) = 1. Para las trans- 
formaciones de contracción, c(g, x) = const. 

Demostración del teorema 1. En virtud de que g6; < 8,, ¿= 1, 2, 
tendremos 


0€e02 
EA”z——————_—__— A a A ño R . 
OEA PA O 
0€0 c81 0501 


Otras propiedades del c.r.v. véanse en los 5$ 11, 13—16. 


$ 11% Análisis sucesivo 


1. Observaciones preliminares. En todos los planteamientos anteriores, el 
volumen nr de la muestra X = X;,, de la cual disponemos, estaba registrado. 
En tales condiciones hemos hallado criterios que poseían unas u otras pro- 
piedades de optimización. Por ejemplo, en el caso más elemental, cuando 
se verificaban dos hipótesis simples 4, = (X E P;)l í¡= 1, 2, resultó que 
existe un cm.p. * de nivel 1 - £, el cual tiene la forma (véase el teo- 
rema 2.1) 


Bana 


, 3 42400 > 00, 
MA) = < p si 200 = 00, 
0, si 2(4) < cf (A). 


Aquí c y p se deducen de la condición M,r(X) = e, y f¡G) son las densida- 
des de las distribuciones P;, ¡ = 1, 2, respecto a cierta medida y. 

¿Será posible mejorar ulteriormente este procedimiento estadístico? En 
las condiciones enunciadas claro está que no es posible. Pero si desistimos 
en registrar el volumen de la muestra, o sea, si procedemos a que el número 
de observaciones rn sea una variable aleatoria dependiente de las observa- 
ciones ya realizadas, entonces los mejoramientos son posibles. Se tiene en 
cuenta la reducción de la cantidad de observaciones indispensables para 
construir los criterios a base de ciertos parámetros dados. Esta circunstan- 
cia es importante en los experimentos donde la ejecución de ensayos ofrece 
gastos considerables. 

La posibilidad de tal mejoramiento de los criterios puede ser aclarada 
citando el ejemplo siguiente. Supongamos que las distribuciones P, y P, 
no son del todo reciprocamente continuas, y supongamos también, que 
existen conjuntos Bi y Bz de By tales, que f(x) > 0, f(x) = 0 cuando 
x€Bi, y fi(x) = 0, £2(x) > O cuando x€ Bz. Entonces está claro que si 
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x1 € Bi (xs € B2), podemos afirmar infaliblemente que tiene lugar la hipóte- 
sis AH, (FR). En este caso no hay ninguna necesidad de llevar a efecto las 
observaciones posteriores. 

Ahora bien, si los experimentos se realizan no de una vez (en cantidad 
de n), sino sucesivamente, examinando el resultado de cada nueva serie de 
observaciones, entonces es posible reducir el volumen general de observa- 
ciones. 

La introducción del procedimiento sucesivo también es muy natural des- 
de el punto de vista del enfoque bayesiano. En efecto, el referido enfoque, 
examinado en el $ 2, prescribe aceptar la hipótesis AH si la probabilidad 
a posteriori q(Q/X) de esta hipótesis >1/2. En este caso, en el conjunto 
crítico se encontrarán, entre otras, tanto muestras X para las cuales q(2/x) 
es próxima a 1 (para tales X, la aceptación de Hz es oportuna), como 
muestras X para las cuales g(2/X” es próxima a 1/2. Estas últimas podrían 
considerarse como muestras “insuficientes” para tomar decisiones y las 
cuales requieren experimentos adicionales. Además, al igual que en el 
ejemplo expuesto más arriba, la probabilidad a posteriori q(2/X) puede 
resultar grande ya después de las primeras pruebas, y entonces se podría 
tomar decisiones sin efectuar pruebas posteriores (en el ejemplo menciona- 
do, q(2/X) = 1 cuando X = x € B; para cualquier distribución a priori 
(q(D), 90), 92) > 0). 

Más abajo examinaremos el procedimiento sucesivo para verificar dos 
hipótesis simples, en el cual se alcanzará la reducción máxima posible de 
la cantidad de observaciones. 

2. Criterio sucesivo bayesiano. Examinemos primeramente el plantea- 
miento bayesiano del problema y designemos por q(1) = q y qQ)= 1-q 
las probabilidades a priori de las hipótesis Ff, y Hz. Entonces, la probabili- 
dad a posteriori de la hipótesis A; después de las observaciones X = X, 
será igual a WAX 

: ll QUUYNA ns 
WUAN = ARO + ADA 0) 


Realizaremos sucesivamente las observaciones y para cada n calculare- 
mos los valores de q(2/Xx), n = 1, 2, ... (o de q(1/X,)). En el plano de 
las variables (1, y) examinaremos la trayectoria aleatoria de las probabilida- 
des a posteriori (quebrada aleatoria), que parte del punto q = q(2) cuando 
n = 0 y que toma, en los puntos n = 1, 2, ..., los valores de y = q(2/X,). 
Con ayuda de esta trayectoria se puede construir el siguiente criterio para 
verificar la hipótesis Af, frente a Ff2: examinemos en el plano (nm, y) dos 
fronteras rectilíneas y = y, ¡=1, 2 0O<y < y» <1 para la variable 
q(Q2/Xn). Se acepta la hipótesis Af si la trayectoria q(2/X,),n =0,1,..., 
sale por primera vez de la franja (y, y2) a través de la frontera superior 
2. Si la trayectoria q(2/X,), n =0, 1, ..., sale de esta franja a través de 


24— 8030 
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la frontera inferior y,, entonces se acepta Ff,. Más adelante veremos que 
la P,-probabilidad (í = 1, 2) de que q(2/X,) nunca saldrá de la franja (y, 
2), o sea, la probabilidad del suceso 


ly < 9Q/Xa) < y, 1n=0, 1, ...) 


es igual a cero. 

El número de pruebas y que se necesita para aceptar una de las hipótesis 
(o sea, para alterar las desigualdades (2)) es, evidentemente, variable aleato- 
ria markoviana (momento de parada) respecto a la sucesión x1, X2, ... 
para cada una de las distribuciones P, y Pz. Desde este punto de vista, 
dicha regla de aceptación de las hipótesis es sucesiva y concuerda bastante 
bien con las reglas conforme a las cuales actúa el hombre en su actividad 
práctica: tomar una u otra decisión después que las observaciones permitan 
reducir en sumo grado la incertidumbre que tiene lugar con respecto al 
objeto sometido a examen. 

El criterio construido depende de q = q(1) y del vector y = (y1, y2). 
Por eso, designémoslo por ó¿, y. Ahora establezcamos que el criterio 6%,, 
es Óptimo. Con este fin introduzcamos primeramente el concepto general 
de criterio sucesivo, cuyas características esenciales, a la par con las proba- 
bilidades de los errores de primero y segundo genero, se convierten en los 
valores medios M,» y M2» para el número de observaciones » necesarias 
para tomar decisiones. 

Supongamos que en (2, MF-) se da una variable aleatoria entera ar- 

bitraria v>60 que es markoviana respecto a la sucesión X1, X2, 
((y >] € 0(x1, -.., xn) = BF). Designemos por 2” el espacio de los 
vectores (1, Xn) tales, que v(Xoo) = n, Xn = [Xo)]». Introduzcamos en 2” 
la o-álgebra de B” engendrada por los sucesos (y = n, Xn € B"), B" € Bi; 
n=0, l, .... Está claro que cualquier distribución en (9 B,+) (o en 
(7, BF)) induce la distribución respectiva en (2”, YB”. 

Definición 1. Llámase criterio sucesivo ¿ para verificar H, frente a Az, 
el par (», Q) donde £ € B” es la región de aceptación de HL (región crítica), 
y la variable aleatoria y se supone que es propia respecto a ambas distribu- 
ciones P,, Pr (P (y < wm) = 1, ¿= 1, 2). 

En los casos cuando sea necesario señalar que y y (2 pertenecen al crite- 
rio 5, escribiremos »(0) y A(Ó6). 

Es natural que, de un modo equivalente, el criterio sucesivo puede ser 
designado con ayuda de una función biforme medible en .2”. También está 
claro que el criterio sucesivo 6 puede ser designado mediante la construc- 
ción de la región crítica (volvamos a designarla por 2) en todo el espacio 
:277”, Sin embargo, con tal aplicación (en 27”) de las regiones (2 y 2” NX Q 
de aceptación de las hipótesis H2 y H,, no obtendremos obligatoriamente 
todos los elementos de :Z”: en aquellos de ellos para los cuales v(XAw) = oo, 
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no se acepta ninguna hipótesis. Pero según la definición de la P,-pro- 
babilidad, los conjuntos de tales X.. equivalen a cero. 

El criterio no randomizado ordinario 5 es un caso particular del criterio 
sucesivo, cuando »(5) = n es constante (si »(9) = 0, entonces la decisión 
se toma sin realizar ensayos). 

El criterio sucesivo $, al igual que cualquier criterio ordinario para veri- 
ficar dos hipótesis simples, se caracteriza por las probabilidades a;(6) de 
errores de ¡-ésimo género (i = 1, 2): 


oun(0) = Prl(v, X.) 405), 


donde Y» = 2, M, = 2” A QM, Además, como ya hemos señalado, caracteri- 
zaremos el criterio sucesivo por los valores medios My», i = 1, 2. Es evidente 
que para el criterio ordinario ó, construido según la muestra X,, se cumple 
Mur(6) e n. 

Para tomar en consideración la aparición de estos nuevos factores en 
el planteamiento del problema (o sea, de las características relacionadas 
con la magnitud »), supondremos que la realización de cada observación 
necesita gastos de valor a. También será cómodo caracterizar las pérdidas 
que surgen al tomar decisiones incorrectas, por medio de distintos valores 
de w, y 2. Es decir, consideraremos que las pérdidas de ¿-ésimo género 
que surgen al tomar decisiones erróneas, cuando es cierta H,, equivalen 
a Y, i= 1, 2. 

Con estos acuerdos, la esperanza matemática R(q, 5) de las pérdidas 
que surgen al utilizar el criterio 5, es igual a 


R(g, 5) = qlar(5)m, + aM,»(9) + (1 — G)loc(5) wz + aM2v(6)1. (3) 


Esta expresión se denomina riesgo bayesiano en el problema sujeto a 
examen. Si aquí suponemos que a = 0, w = w = 1, obtendremos la expre- 
sión para la probabilidad de una decisión errónea del criterio 6, la cual 
ya hemos utilizado repetidas veces en los $$ 1, 2. 

Definición 2. El criterio sucesivo á que minimiza el riesgo bayesiano 
(3) se denomina criterio sucesivo bayesiano. 

La siguiente afirmación establece la optimización (carácter bayesiano) 
del criterio ó¿., construido al principio de este párrafo. 


Teorema 1. Para a, w,, w dados existen yr, y2 tales, que el criterio 
64, y €s bayesiano. 

Demostración. Designemos por ó, el criterio que acepta la hipótesis H, 
sin realizar pruebas, así que »(6;) = 0, ay(61) = O. Aclaremos primeramente 
en qué casos el criterio 3, que minimiza R(g, 5), coincide con 3, o con 
62. Es evidente que 


R(g, 61) = (1 — q), Ría, 62) = qw,. 
24* 
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Sea K la clase de criterios (9 = $(X))] que dependen al menos de una obser- 
vación, o sea, la clase de criterios 5 para los cuales »v(6) > 1. Es evidente 
que R(q, 5) > a para 5€ K. Designemos 


dBEK 


Como el criterio 5, basado en una sola prueba (v(0) = 1), pertenece a K, 
entonces R(q) < oo, 

Para cualquier p€(0, 1) tenemos, en virtud de la linealidad de R(g, 
ó) como función de gq: 


Rpg: + (1 — pida) = inf pRiqr, 6) + (1 — p)R(g2, 6) > 


2 pR(q1) + (1 — p)R(q.). 


Esto quiere decir que R(g) es una función cóncava. En vista de que 
a < R(g) < «o, de aquí se deduce que R(q) también es una función conti- 
nua en (0, 1]. Comparemos ahora los riesgos de los criterios á, y 6 € K en 
función de q (véase la fig. 5). 


R(q, 61) R(q, 62) 


Una de dos: o bien dit 2 mín R(q, 61) para todos q (esto correspon- 


de al hecho de que Ra ) 2 —__—— a ha O bien existen soluciones 
W + W + 


de las ecuaciones R(q, 61) = R(q), R(q, 62) = R(q), que designaremos 
l=wxw l- nn 1l-y>l-y, respectivamente. Es evidente que 
R(g) < mín R(q, 61) dentro del intervalo (1 — y2, 1) — y1). Para la primera 
de las posibilidades mencionadas supongamos 
Y 

1 Y 1 n= MW wm?” 
así que 

R( = yí, 61) = RÚA — y, 62). 


De los referidos razonamientos y de la fig. $ se deduce la siguiente regla 
óptima de acciones. A base de los datos a, w,, vw» calculamos 1 - y,, 
l — n.Sig < 1 — y o bien, que es lo mismo, 1 — q > y, el menor riesgo 
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entre todos los criterios lo proporciona ó (o sea, es necesario aceptar inme- 
diatamente Ah). Siq > 1-— ys (1 - q < ry1), entonces Ó, ofrece el menor 
riesgo (es preciso aceptar H,). Y sólo en el caso de 1 -— y < 1 - y, 
q€(1 — y, 1 — yr) lo bien 1 — q € (y1, y2)) es necesario utilizar el criterio 
de K, o sea, hay que realizar el experimento. 

Ahora aprovechemos la inducción. Supongamos que se han efectuado 
n Observaciones y que disponemos de la muestra X,. Antes de la observa- 
ción n + | tenemos la misma alternativa: no realizar más observaciones 
y aceptar una de las hipótesis H;,, o bien continuar las observaciones. El 
hecho de que ya hemos sufrido las pérdidas an no desempeña ningún papel, 
ya que éstas no pueden ser eliminadas de ningún modo. Los cambios esen- 
ciales sólo están relacionados con la distribución a priori. Ahora el papel 
de probabilidades q(1) = q y q(2) = 1 -— q deben desempeñarlo las proba- 
bilidades a posteriori q(1/X,), q(2/X.). Con arreglo a esta nueva situación, 
la regla óptima ya elaborada por nosotros, dice que es necesario aceptar 
Ha si q(Q/X.n) > y, y Hi si qQ/X,) € ys. Si 9Q2/Xn) € (y1, y2), entonces 
conviene continuar las observaciones. Pero la regla obtenida no es otra cosa 
sino el criterio $¿,,. Ahora bien, hemos hallado y, = yi(a, w1, w2) que pose- 
en la propiedad de que el criterio ó¿,, minimiza el riesgo R(g, 5). «<a 

Nótese que los números y¡(a, w:, w2) permanecen invariables al multipli- 
car a, w1, wz por un mismo número: esto es evidente de su definición, ya 
que tal operación sólo conduce a que todos los riesgos R(q, 5) sean mul- 
tiplicados por ese mismo número. Así pues, en realidad y; es una función 
de dos variables, por ejemplo, de a y w, si consideramos que mw» = l — ws. 

¿Qué representa en sí el criterio bayesiano ¿¿,,? El mismo prescribe no 
realizar observaciones en dos casos: cuando y; = y2 (lo cual sucede en caso 
de que a es grande en comparación con w;, wz), o bien cuando q(2) € y 
o cuando q(2) > y. En los demás casos es preciso realizar experimentos 
hasta la primera alteración de las desigualdades 


y < qQ/X,) < Y 


o bien, que es lo mismo, (véase (1)), hasta la primera alteración de las des- 
igualdades 


(1 = 1020) "HAD — (1 - yn)0) ' 


En este caso se acepta la hipótesis HZ, si por primera vez se altera la desigual- 
dad derecha, y la hipótesis Xf; si se altera la desigualdad izquierda. En tal 
forma, la parte “variable” del criterio ó,,, ya no está relacionada con el 
planteamiento bayesiano del problema y podemos, designando por T',, Ta 
las fronteras izquierda y derecha en (4), examinar el criterio sucesivo $r, 
T = (T,, T2) que se llama criterio sucesivo de la relación de verosimilltud. 
Fue Wald quien lo introdujo por primera vez. 
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3. Criterio sucesivo que minimiza el número medio de pruebas. 

Teorema 2. SeaT, < 1 < TP. Designemos por o. y ce las probabilidades 
de errores de primero y segundo género del criterio ó5r. Entonces, entre to- 
dos los criterios sucesivos 5, para los cuales (6) € a1, a2(6) € az, el crite- 
rio 6y tendrá los menores valores de M,»(5) y M2v(0). 

Este teorema significa, en particular, que si $ es un criterio construido 
según la muestra X, de volumen registrado, para el cual o1(0) < a, 
a2 (0) <€ 2, entonces 


Muv(ór) <€n, ¿=1, 2. 


Demostración. El criterio bayesiano 6 .,, examinado en el teorema 1, 
se determina por el conjunto de números (q, 4, wi, W2). Pero, como ya 
hemos señalado, la multiplicación de a, w,, vw» por un mismo número no 
altera las fronteras y,, así que, de hecho, ó,,, se determina a base de tres 
parámetros, por ejemplo, (q, a, w) si se toma w, = w y Mw = 1- w 

Si partimos de este acuerdo, en el teorema 1 hemos construido, a base 
de los valores dados de (a, w), los números y; = y:(a, w) para los cuales 
el criterio 4, es bayesiano. Ahora necesitaremos, en cierto sentido, la afir- 
mación inversa acerca de que para los valores dados de y, yz existen a, 
w tales, que yi(a, w) = y;, o sea, tales a, w para los cuales el criterio óg,, 
será bayesiano en el problema correspondiente al conjunto (q, a, w). Esta 
afirmación tiene carácter técnico y se demuestra de un modo bastante 
complicado (véase [57])). Por eso la aceptamos como tolerable”?, 

Así pues, examinemos el criterio ór, y para el valor dado de g hallemos 
y¡ de las ecuaciones 

A — =15.. 
(1 - yd — q) 


Para los valores obtenidos de y; = Ti(1 — Y/(T (1 — q) + q) hallemos a, 
w con los cuales el criterio á¿,, será bayesiano en el problema que corres- 
ponde al conjunto (q, a, w). Como T', < 1 < Tz, entonces qn <1-q<n 
y v(6¿,,) > 1. Esto significa que $¿,, = ór. 

Sea ahora ó cualquier otro criterio para el cual 0,(6) < ou. En vista de 
que el criterio ó,,, = ór minimiza el riesgo bayesiano, entonces 


qlo: w + aMi v(ór] + (1 — g)Moz(1 — w) + aM2v(8r)] < 
< q[a1(8)w + aMi»(9)] + (1 — Dlo(0(1 — w) + aM2v(0)). 


* Aqui tampoco demostramos otra afirmación útil acerca de que para las P» 
-distribuciones continuas de la magnitud £(AD)/A 00, y para todos los valores dados de «,, 
o habrá F,, T, tales, que a,(5r) = a, ox (8r) = a Por su esencia esta afirmación se asemeja 
a Jos lemas 6.1 y 7.), pero su demostración es más difícil. 
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De aquí resulta 
qMi v(9r) + (1 — q)Mav(6r) < qMiv(9) + (1 — q)Mav(ó). 
Como el número q€(0, 1) aquí es arbitrario, entonces 
Mi v(ór) <€ Mi v(6), Mav(6r) € M2v(6). < 


Aquí hemos utilizado, para la demostración, el mísmo método de com- 
paración con los criterios bayesianos que habíamos empleado en los 
$$ 1, 2, S. 

Examinemos algunas propiedades del criterio 5r. Designemos por 07 
los subconjuntos de ¿2”” que se definen del modo siguiente (Xx = [X.)]1): 

Xx) L(Xa) 
n= xr <A <TM,k=1...,»n-1, rf. 

Ñ | Ar A 
El conjunto 127 se define del mismo modo, pero la última desigualdad debe 
sustituirse por f(X,)/41(Xn) > T2. Es evidente que 07 son disjuntos, pues 


Q= U Nes la región de aceptación de H,, 


mi  ] 


v(ér) = n en la región (xe2”:xe€ 07), 


alt= POD Y j Add) < 


"Nm 
<€ ED $ A (de) = ( — a2(8r))/Pa. (5) 
Mo] FDA 
Análogamente se establece que 
o2(6r) <P ¡(1 — ar(ór)). (6) 


Pongamos, para abreviar, a(6r) = ay. El grado de exactitud de las desigual- 
dades obtenidas 
l - a Q? 

Ts FE, ” > V=0 (7) 
lo examinaremos más adelante. Ahora aclararemos las propiedades del cri- 
terio que obtendremos si hacemos uso de las relaciones (7) en calidad de 
base para determinar P', por los valores de «a dados. Si ponemos 


_ OR a, 1 02 
ri 5 ] — [5.3] d tz — Q1 
entonces para el criterio obtenido ór- tendremos, en virtud de (7), 
0% 5 l — Qu 1 - az 


Lea lr . a” (8) 


, Qj = au(ór-), 
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De aquí resulta 
ol < o - a) < 


— (2 a 


or (1 — aj) ley] 
l —- Qs l- 0 


ES 


Reduciendo las desigualdades (8) al denominador común y sumándolas, 
obtenemos asimismo 


aí +0 <a + 02. 


Ahora bien, si a; son pequeños, el criterio 5r- tendrá los valores de af 
cuya suma no excede ax, + a, y cada a; puede superar a sólo insignifican- 
temente y dentro de los límites que conocemos. 

Ejemplo 1. Supongamos que x; tiene una distribución binomial con una 
probabilidad de éxito p. El problema consiste en verificar la hipótesis 
Hi = (p = pi) frente a Hz = [p = p2), p, < pz. En este caso 


LO _ Pra." _ (pa- py € — Pr y 
AC) pr(- Pi pú - ps) l — pi 

donde n, es el número de casos favorables (éxitos) en n pruebas. Para los 

valores p; = 0,05, pz = 0,17, a, = 0,05, 0, = 0,10 obtenemos” Tí = 0,105, 

Tj = 18, 41 = 0,031, «2 = 0,099. 


M, v($r-) = 31,4, M2v(ó6r:) = 30,0. 


Por otro lado, el procedimiento con un volumen fijo de la muestra y con 
probabilidades de los errores de primero y segundo género correspondientes 
a 0,05 y 0,10, respectivamente, requiere n = 57 observaciones. Ahora bien, 
en este ejemplo el procedimiento sucesivo reduce casi el doble el número 
medio de observaciones. 


4. Cálculo de los parámetros del mejor criterio sucesivo. Las relaciones (7) y (8) dan 
la posibilidad de establecer cierta correspondencia entre la frontera F' y las probabilidades 
de los errores ex(6r). Ahora ecaminemos más detalladamente el problema de cálculo del crite- 
rio 5r. 

a) Fórmulas exactas. Designemos 

Esla Sax1) 


fire) 
Aj=ilnT, i=0,2. 


om ll 


En este caso el criterio 5r puede adquirir la forma siguiente: si A, < 0 < Az, entonces los 
experimentos se realizan eno y los valores Zz independientes e igualmente distri- 


buidos se suman hasta que Z, = z Za toque por primera vez una de las fronteras Aj. Si 


es cierta la hipótesis Hz, la divagación descrita será dirigida, por término medio, hacia arriba, 


% Los datos numéricos se han tomado de [57], p. 143. 
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ya que 


Fux) 

Fx) 

(véase el lema 2.6.1). De un modo análogo se determina que Mizj = — qu(P,, Pa) < O. 
Si las fronteras A; se alejan a partir del origen de coordenadas, esto corresponde (compá- 


rese con (5) y (6)) a la reducción de los errore3 de primero y segundo género. 
Los conjuntos (2% en los términos de divagación (Z+) tendrán la forma 


D= (41<Z2<Azk=1 ...,n-1,Z.> 42). 


M2 = j ln * falxjaldx) = ex(PaP1) > 0 


Los conjuntos 03 tendrán una forma análoga. 
Designemos por n(1) la variable aleatoria igual al tiempo de la primera salida de la divaga- 
ción aleatoria Za = 0, Z,, Z2, ... fuera de la frontera de t: 
4) = mín (k: Za > 1) para 1 > 0, 
"2h mín (k: Ze < 1] para 1 <0. 
Es el proceso de reconstrucción que corresponde a la sucesión (Zx) (véase (11], capítulo 8). 
Las diferencias x(41) = Zo) — A, serán los valores de excesos (saltos) a través de los niveles 
A, en la divagación (Zr) (véase [11)). 
Para la probabilidad de error de primer género ahora podemos escribir 


air) = P/P0g a Y) | Lada) 


..] nul 2001 


7 2) Male"; 03) = Ti Mate”; 0%), (9) 


donde 0: = |) Q) es la región de aceptación de Hz. Análogamente 


ar(ér) = PiMule "0, Mm = Ua?. (10) 


a, 
Seguidamente, para los valores de My», i = 1, 2, y = v(ór), en virtud de la identidad 
de Wald, obtenemos Mi(Z,) = MizMi», i = 1, 2. 
Como Z, = Az + a(42) en el conjunto Q,, Z, = A) + x(41) en el conjunto f?,, entonces 


1 
Mi» = a lm1Az + Mi(x(Az); 21) + (1 — a) Ar + Mi(x(An); (1), 


1 
221 


Mar = M [(1 — a2)42 + M2(x(42); 02) + 034) + Ma(xí41); 01)). (11) 


En varios casos los segundos miembros en las fórmulas (9) —(11) pueden ser determinados 
de forma explícita. Estas fórmulas también resultan muy útiles en los cálculos aproximados. 


b) Fórmulas (para Ar y Ax grandes) y desigualdades aproximadas. Ya hemos señalado 


que los grandes valores de |4,|, f = 1, 2 corresponden a pequeñas probabilidades de errores 
outór). Examinemos el valor 


caló) = Pr sp 2 > As = Pi(sup Za > As - 
v(A7] 0 


- Pr( sup Ze< Az, sup Z; > Az). (12) 
rÉ£ vr) >" (41) 
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Aquí el último sumando no supera, en virtud del carácter markoviano de la variable 
aleatoria a(f), los valores 
P, ( sup (Zi - Za4)) 2 A2 -— Zara) < P, (sup Zr > A2- A). 
E>raAy) A20 
Como en casi todos los casos prácticamente interesantes, la probabilidad 
u(A) = P,¡(sup Z+ > A) decrece exponencialmente con el aumento de A (véase, por ejemplo, 
AO 


132], t+ 2. Esto mismo se puede deducir de) capítulo 10 en [11], donde se exponen los métodos 
de cálculos de u(A)*)), entonces, para |4i| grandes, el valor de u(4? — A)) tendrá un orden 
más alto de pequeñez que u(A2). Esto significa, en virtud de (12), que 


atár) = P: (sup Zx > 42) = u(Ax), (13) 
> 


asi que, para giandes A, y Aa en (12), la segunda frontera puede ser omitida. Exactamente 
jgual obtenemos la aproximación 


catbr) = Pa (inf Ze < 41). (14) 
30 
Si ¡A son grandes y «y pequeños, los miemboros principales en (11) proporcionan 
A Á 
Mia o Mi (15) 
¡21 M:2 


Estas fórmulas también se basan en la omisión de la segunda frontera (ellas también 
pueden obtenerse mediante las aproximaciones Myy = Min(A,) » A/M;z1. La Última relación 
tiene lugar en virtud del teorema de reconstrucción ([11))»). 

Teniendo en cuenta los términos siguientes, según su orden de pequeñez en (11), ob- 
tenemos 


Mis === Pata = Ade Mid: 
M)21 

(16) 

May = 


M 
-- (A1 + m(A2 — As) + Mao), 
M2 


donde a; se definen por las aproximaciones (12) y (13), los valores M:x. = psi Mix(A.) 
ja an 


pueden ser determinados por los métodos descritos en el capítulo 10 en [11). 
Examinemos ahora las desigualdades (8). Como x(4,) £ 0, x(42) > 0, estas igualdades 
se deducen de (9) y (10) si x(4r) se sustituye por O. Consiguientemente, la exactitud de tales 
desigualdades depende del error originado por dicha sustitución. 
Si las variables aleatorias Z, están limitadas, b, < 2, £ dbz, es evidente que x (42) € bz, 


x(A1) > b,. y además de (5) y (6) pueden escribirse las desigualdades inversas. Es decir, 
artór) = TI 'Mate *%; 0) > 53 'e 1 - an), 

p (17) 

ornfdr) > Pie «(i — a). 


A fin de ilustrar las relaciones obtenidas, volvamos a examinar el ejemplo 1. Para éste, 
pati — pi) A 
————— +nmtn 

Ppr0 - pz) l-p 


donde ny, es el número de casos favorables en n pruebas, Esto quiere decir que z,, para la 
P+--distribución, adopta el valor de bz = In (p2/p,) = 1,224 con probabilidad p,, y el valor de 


Za = Y» Ln 


*? Esto se expone más detalladamente en [9]. 
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2 = -— 0,135 con probabilidad 1 — pi, ¡+= 1, 2. De aquí obtenemos 


l 
b, a ln 

1 

Miz: = — 0,067, Maz, = 0,096, e* = 3,400, e" = 0,874. 


De los dos últimos valores sólo el segundo es próximo a 1, así que será relativamente 
exacta tan sólo la segunda igualdad de (17). Utilizando esta desigualdad en (7) para el criterio 
$71, obtenemos 

0,102 = «rs E 20,07 
l -a; "EA ape? 
Esto proporciona fronteras bastante exactas para el valor de Pí = 0,105. En nuestro caso 


Aj = InT/= -2,254, Az = InT; e 2,890. 


De aquí, utilizando las fórmulas aproximadas (15), obtenemos para My»', ¡ = 1, 2, los 
valores 


A¡/M21 = 33,639, Az/Mi2 = 30,108, 


Vemos que incluso aproximaciones que están lejos de ser precisas, tales como (15), dan 
una noción correcta de las magnitudes Mu» '. Los resultados serán mucho más exactos si hace- 
mos uso de las fórmulas (16). 


$ 12. Verificación de las hipótesis compuestas en el caso general 


En este párrafo no vamos a suponer que la muestra pertenece a cualquier 
familia paramétrica, 

El problema de verificación de dos hipótesis en el caso general tiene 
la forma siguiente. Sean K4% y 2% dos familias de distribuciones tales, que 
la distribución P de la muestra X' pertenece a 4% US. Se verifica la hipóte- 
sis Hi = (XE P,Pe94] frente a H, = (X E P, PE€ 34). El principio gene- 
ral de construcción del criterio (no randomizado”) *(X) = 510) aquí 
queda igual que antes, tal como fue descrito en el $ 4 para el caso para- 
métrico. Se construye precisamente el conjunto crítico RL C 2” (que a me- 
nudo se identifica con el concepto de criterio) tal, que aceptamos H7 
cuando X'€ N, y aceptamos HH, en el caso contrario. El número 


pon $ f 
1 AD) 


se llama nivel de importancia del criterio. La magnitud 
BX(P) = P(XEN), PEX, 


es el valor de la potencia del criterio xr en el “punto” Pe€24. 
Cuando el conjunto 4% de alternativas P es muy abundante, en estas 
condiciones es muy difícil o incluso imposible comparar las potencias $8x(P) 


* Para mantener la uniformidad de las designaciones, en to sucesivo designaremos los 
criterios estadísticos con el símbolo r, aunque dentro de los límites de este capítulo se tratará, 
por lo general, de criterios no randomizados 
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de los criterios ” y construir los criterios óptimos. Las minimas exigencias 
planteadas ante los criterios, en este caso consisten, por lo general, en que 
para cada Pe4% registrado se cumpla 


lím BXP) = 1. 


Definición 1. El criterio * que posee esta propiedad se denomina criterio 
conciliable. 

La esencia de los criterios sometidos a estudio, al igual que de todos 
los criterios estadísticos, corresponde al principio fundamental de la esta- 
dística matemática, del cual ya hernos hablado en los párrafos 1.4 y 2.31. 
Si e es pequeño, entonces, al cumplirse la hipótesis F, y al utilizarse muchas 
veces el criterio construido de nivel 1] — e, nos equivocaremos (o sea, caere- 
mos en la región crítica), por término medio, sólo en el 100 £% de todas 
las pruebas. Por lo tanto, en caso de cumplirse la hipótesis Ff¡, considera- 
mos prácticamente imposible la caída en esa región al realizar una sola 
prueba. Consiguientemente, si a pesar de todo caemos en ella, eso significa- 
rá que la suposición hecha no es cierta y anunciamos que la hipótesis A, 
no es verdadera. En este caso se dice que los resultados del experimento 
no concuerdan con la hipótesis HF, desde el punto de vista del criterio de 
nivel 1 — e. 


Están muy difundidos los criterios de verificación de la hipótesis simple 
H,=(XEP,] frente a la hipótesis alternativa compuesta HH = 
= (X€EP +<P;,); la hipótesis A, significa que X es una muestra de la 
distribución arbitraria P + P.. 

La construcción de los criterios para verificar la hipótesis simple 
H, = (X € P,) suele basarse en el “alejamiento” de la distribución empíri- 
ca P, respecto a la distribución P, desde el punto de vista de cierta “distan- 
cia” d(P, Q). La propiedad deseable de esta distancia consiste en reducir 
(P, O) a cero sólo cuando Q = P, y en transformar la continuidad d(P, Q) 
en el “entorno” del punto Q = P, por ejemplo, en la métrica uniforme (de 
lo contrario las pequeñas desviaciones de Q respecto a P pueden conducir 
a grandes valores de la distancia d). Recordemos que en el caso paramétrico 
hemos utilizado consideraciones análogas al construir las estimaciones del 
parámetro desconocido aplicando el método de distancia mínima. 

Así pues, sea d(P, Q) cierta distancia (no obligatoriamente métrica) en 
el espacio de distribuciones. Supongamos que a partir de e > O dado se 
puede hallar tal c > 0, para el cual 


P(d(P,, Pr) > c)= e 

Entonces el criterio se construye del modo siguiente: 
O, si d(P,, P, A 
FÍ X) S (P, ) < € 


1, en el caso contrario. 
Evidentemente, * es un criterio de nivel l -— e. 
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Al igual que en el $ 3, se puede introducir un criterio de nivel asintótico 
1 — e para el cual 


lím P.(d(P,, Ps) > c) = e. (2) 


Los criterios descritos suelen llamarse criterios de aceptación (suponien- 
do que (Y E P,]). Análogamente, su estructura también puede ser repre- 
sentada de una forma algo diferente. Supongamos que tenemos una 
funcional G(P) (o una sucesión de funcionales Gn(P)) tal, que 
G(P) + G(P,¡) cuando P <P; Entonces podemos poner r(X)= 1 si 
IG(P5) -— G(PNYI ><, y r(X) = 0 en el caso contrario, donde c se elige 
partiendo de las mismas consideraciones que en (1) y (2). No es difícil 
comprobar que este segundo enfoque es equivalente al primero, puesto que 
a partir de la funcional G se puede construir la distancia 
d(P, P,) = 1G(P) — G(P.)!| (compárese con el principio de sustitución en 
la teoría de estimación), y al contrario, a partir de la distancia d(P, P,) 
se puede construir la funcional G(P) = d(P, P,) (G(P:) = 0) que satisface 
las propiedades requeridas. 

Si en la estructura descrita, la funcional G posee, además, la propiedad 
G(Px) FS G(P) cuando X € P (esto siempre es así cuando G es una función 


de primero o segundo tipo (véase el $ 1.3)), entonces el criterio construido 
será conciliable. En efecto, en este caso el número c = c(n) que asegura 
la igualdad (2) debe convergir a cero (P.¡(|G(Pa) — G(PDI > £) > 0 para 
cualquier e > 0) y, por lo tanto, tendremos G(P») ES G(P) P(IG(Px) — 
- G(P)Y! > c(m)) > 0 para cada P xP, registrado. 

Examinemos ahora algunos criterios de aceptación bien conocidos que 
son la realización del enfoque descrito anteriormente. 

a) Criterio de Kolmogórov. Examinemos la estadística (distancia) 


D(P,, Pa) = sup 1F5 (1) - F(OI, 


donde F;(*) y F(f) son las funciones de distribución que corresponden a 
las medidas P, y P,. En el $ 1.8 hemos establecido que si F(+) es continua, 
X€EP,, entonces 


dx(P,, Ph) = Van D(P,, P5) > sup Iw*"(0l, 
06€ICI 


donde w”(£) es el puente browniano. De aquí se deduce el 
Teorema 1 (A.N. Kolmogórov). Si F(t) es continua, entonces existe 


lím P.(dx(P,Px)<x) e. K(00)=?P sup Iw*(1)! < x). 
Ne 05/61 
La función K(x) se puede hallar en forma explícita. La misma es igual a 
Kto= Y (-1 eee, 


ko -—-w 
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Con ayuda de este teorema se pueden construir los criterios de nivel 
asintótico 1 — e. La función K(x) está tabulada en muchos manuales de 
estadística matemática. Por eso, para e dado podemos, mediante tablas, 
hallar una constante c = c, para la cual K(c) = 1 — e. Poniendo r(X) = 1 
cuando d+(P,, P,) > ce, obtenemos el criterio de aceptación de nivel asin- 
tótico 1 — e. Es fácil notar que el criterio obtenido es conciliable, ya que 
la funcional G(P) = sup 1FHt) — F(2)| (aquí Fp(t) = P((— oo, £))), con 

t 


cuya ayuda se ha construido el criterio de Kolmogórov, es continua respecto 
a Fp en la métrica uniforme y, por consiguiente, es una funcional del tipo 
11 (véase el capítulo para la cual G(Px) a G(P) cuando X E P. Queda hacer 


uso de las observaciones hechas anteriormente sobre las condiciones de 
conciliabilidad de los criterios de aceptación. 
Con ayuda de los resultados del capítulo | podemos determinar el comportamiento asin- 


tótico de la potencia del criterio de Kolmogórov respecto a alternativas semejantes (véanse 
el 53). Supongamos que X € P, donde la distribución P tiene la función de distribución 


FrO0) = Flo) + pon” Y. 
Supondremos, para abreviar, que p(x) es continua, y que F(x) es continua y estrictamente 
monótona. La potencia S8(P) del criterio de Kolmogórov en el “punto” P será igual a 
B(P) = P(dx(P., Pa ) > c) = rá IF) — Fr (iva > dN 
!t 
= P/(sup |FH1) - p(On7*”? - Fi 1vn > o) 
l 

Si sustituimos £ = F7'(u), donde Fs? es una función inversa a Fp, entonces obtenemos la 


expresión 


P( sap lu - p(E5 Ga" Y? - ERES ura — o) (4) 
06161 


Aquí Uz(u) = Fx(F5 '(u)) es una función empírica que corresponde a la distribución Ub, 
uniforme en [0, 1), así que (4) es igual a 


P/ sup lu - Uz(u) - PE (u)a 7 Plva — en. 
on ) 


Además FF *(u) — F” (u) en virtud de la estricta monotonía de F. De aquí y de la contl- 
nuidad de p se desprende que 


Um B(P) = El e Iw*(1) — (dl > c) donde a(í) = p(F” Ut). (5) 
s 


rn eo 
Se puede mostrar que esta expresión es mínima cuando a(1) 2 0 (p == 0). En este sentido 
el criterio de Kolmogórov es un criterio mo desplazado asintóticamente. 


b) Criterio de Mises—Smirnov (criterio w?). Examinemos, en calidad de 
distancia entre P, y P;, la estadística 
0 da(Pr, Pr) = n (70) — ESO? dE, 
con cuya ayuda también es posible construir el criterio de aceptación de 


un nivel dado. En el capítulo 1 hemos demostrado que aquí, al igual que 
en el caso precedente, es válido el 
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Teorema 2. Existe la distribución límite 


lím P.(e < x) = N(x) = P( [oca dt < x). 


aw 
0 


La función Q(x) tiene una forma muy compleja (véase [8]) y aquí no 
la mostraremos. 
Como la funcional 


G(P) = [(50) — FAOY dFO) 


es una funcional del tipo Il ($ 1.3), entonces, conforme a las mismas consi- 
deraciones que en el punto a), el criterio w? es conciliable. 


Siguiendo los razonamientos del punto anterior, también se puede establecer el comporta- 
miento asintótico de la potencia S(P) del criterio w? para las alternativas semejantes de P 
de forma (3). De un modo absolutamente análogo obtenemos que 


BP) = Pla > c) > P((00 - ANY dt > c). 


donde a(í) está definida en (5). El valor límite obtenido es, al igual que en ($), mínimo para 
a(t) e 0, así que el criterio w?* también es un criterio no desplazado asintóticamente. 


Los dos criterios examinados, al igual que otros criterios de aceptación 
de la hipótesis AH, = (X € P,), construidos con ayuda de las distancias 
d(P, Q), permiten obtener inmediatamente conjuntos confidenciales para la 
función desconocida de distribución F(x) o para la distribución desconoci- 
da P, de la muestra X. En efecto, la relación (1) (6 (2)) también puede 
ser interpretada así: la probabilidad de que el c-entorno del “punto” P, 
(en sentido de la distancia d) recubra el “punto” P, es igual a 1 — e. (Para 
(2) obtendremos la variante asintótica de esta afirmación). Ello significa 
(véase el $ 8) que el c-entorno del punto P, no es más que un conjunto 
confidencial de nivel l — e para Ja distribución desconocida P,, X € P.. 
El criterio de Kolmogórov, por ejemplo, determina tal entorno en términos 
de las funciones de distribución: el mismo es el conjunto de todas F(x) 
para las cuales 


sup 1F(0) — Fa(0)l < ce/Vn, 


donde c¿ se deduce de (1). 

Volvamos a examinar los criterios. Ya hemos señalado que en los niveles 
asintóticos de significación podemos confiar únicamente cuando son gran- 
des los valores de n. Pero si el volumen de la muestra no es grande, entonces, 
al construir el criterio (mejor dicho, al determinar c = cs) es necesario uti- 
lizar las fórmulas exactas para la distribución de d(P,, Ps). No obstante, 
la obtención de tales fórmulas choca, por lo general, con grandes dificulta- 
des. En este sentido desempeñan un papel muy importante los llamados 
criterios no paraméftricos, basados en estadísticas cuya distribución no de- 
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pende de la distribución verdadera P, (o no depende del parámetro 0 cuan- 
do X€ Pa). 

En este caso, las probabilidades P.(d(P,, P;) < x) no dependen de P, 
y, por consiguiente, es posible realizarlos una sola vez, hacer las tablas y 
utilizarlas posteriormente para cualesquiera P.. 

El criterio de Kolmogórov y el criterio w* no son paramétricos. Este 
hecho fue establecido en el $ 1.6. 

Los criterios no paramétricos también surgen al verificar dos hipótesis 
compuestas. 

c) Criterio de signos. Supongamos que F(x) es la función de distribución 
para P,, y que la hipótesis Ff; consiste en que F(a) = p para un punto 
a dado. Esta es, evidentemente, una hipótesis compuesta. La hipótesis Ha 
es suplementaria: H> = (X € P, Fr(a) 4 pj. En este caso es natural hacer 
uso de la estadística siguiente: designemos por y(X) el número de observa- 
ciones xi para las cuales el signo de diferencia x, — a es negativo. En calidad 
del conjunto crítico (1 examinaremos todas las muestras X' para las cuales 


p(A) $ (cr, C2) 
con ciertos €; < «2. 
Si la hipótesis H, es verdadera, entonces 
PO = k) = Cip*(1 — py"rf. 


Así pues, para el caso de la hipótesis H,, la distribución »(X) no depende 
de P,, ya que nuestro criterio no es paramétrico. Los números c;, han de 
elegirse de modo que 


PirOD ea a)>1-e 


(debido al carácter discreto de v(X), aquí puede ser que no se alcance el 
signo de igualdad). La heterogeneidad en la elección de c;, se puede eliminar 
exigiendo el no desplazamiento respecto a los cambios de c. En general, 
este problema es equivalente a la verificación de la hipótesis acerca de que 
la probabilidad de éxito en el esquema de Bernoulli es igual a p. Análoga- 
mente se pueden construir los criterios “unilaterales” para verificar las hi- 
pótesis de que F(a) < p. 

Si en calidad de generalización del problema examinado verificamos la 
hipótesis F(aj) = pi, i = 1, ..., r para los valores dados de a; y ps, llegaremos 
al criterio x? que hemos examinado detalladamente en el $ 16. 

d) Criterio de Morán. Así se llama el siguiente criterio para verificar 
la hipótesis de que X € P.. Sea xc1), ..., Xq) Una serie variacional construida 
según la muestra X. Supongamos que P, tiene una función continua de 
distribución F; establezcamos la estadística 


Mn = y [Fa + 19) Fw, (6) 


k0 
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donde se adopta F(xc0») = 0, F(X«m + 1) = 1. El criterio de Morán rechaza 
la hipótesis (X € P,)] si M, > c. 

Evidentemente, este parámetro no es paramétrico, ya que F(xx) € Ub,1. 
Por lo tanto es suficiente examinar el criterio M, > c basado en la esta- 
dística 


Ma = Y) (a+) — Xu)” 
k=0 
y destinado a verificar la uniformidad de la distribución de X. En este caso, 


la utilización de la estadística M, es natural, ya que la magnitud y yt 

A” [m1 
alcanza su mínimo a condición de que >); y, =1 en el punto y, = ... 
de) 


. = Ya = 1/n. 
Para calcular el nivel asintótico del criterio de Morán puede servir la 
afirmación siguiente: 
Teorema 3. Si X € P,, entonces 


Vn(nMa/2 - 1) € do.1. 


Demostración. Supongamos que ¿y G T,.1j = 1,2,.... Entonces tx = 
k 


= Y Ey € M.,,x y, en virtud del corolario 1.6.2, la distribución compatible 


Jul 
de las diferencias 
XD» XQ) — X(0)s --<s X() — X= m> 1 — Xq) 

coincide con la distribución compatible 

3] 2 £t, +1 

En v art is Sari 
así que” 
-2 ”+) 2 
Ma, 5 $n+1 Ef. 
Jal 

La distribución de M, no depende de a, y se puede poner « = 1. Entonces 
(véase el $ 2.2) 


MES =TM(k + 1)=k!, Diy=1, Dif = 20, 


o | 
25 72) (E - 1) 80, 


Jul 


1 "n 
Ya = 52 — 2) € Po.20, 


jul 
” El signo = significa la coincidencia de Jas distribuciones. 
d 
25 —8031 
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Tenemos 
2 z o) 
nM, _ n| n + A )] mM nn + 9 VA) E 2 + qn Y? 
UN |" + YE - | TES OS 
Jul 
te — 4Qn — 204n '” 
(nMa -1 En 2)Yn = INTEL Mm 

Aquí 


m— don = Za DH E = E ls, 
Jul 
Mi = -2, Diy' = M(Ef — 8Ef + 16Ef) - 4 = 4. 
Por lo tanto, %n — 4pn € Po ., así que, en virtud de los teoremas de conti- 
nuidad de (7), obtenemos 


Vn(nMa- 1/2 - 1)€ €o.1. 
Esto equivale a la afirmación del teorema. «<. 


Citemos ahora las consideraciones que muestran que el criterio de Morán es conciliable 
Examinemos la estadística (6) para Y € P, donde P se distingue de P,. Una de las distribu- 
ciones P, o P puede considerarse, sin limitar la generalidad, uniforme. Supongamos que ella 
será P. Con respecto a F podemos suponer, para abreviar, que existe una densidad continua 
FU) = F'(t) concentrada en [0, 1]. Entonces, para Y € Us ;, la parte principal de nM, será 
igual a 

A a+] 
n 2, UA + no) — Xx 1? - n Y Ule/La+1)30/ En +13. (8) 


k=0 ku] 
Según la ley fuerte de los grandes números, KT tte > | cuando k — «o. Por eso, a su vez, 
la parte principal de (8) será igual a 


Y) SUR IMiEbn. 


k=1 


Volviendo a utilizar la ley de los grandes números (o la desigualdad de Chébishev), obtenemos 
que esta expresión converge, en probabilidad, hacia 


Para > 2 ana) = 2, 


0 
Aquí el signo de desigualdad es estricto cuando /(t) m 1. Esto quiere decir que cuando 
XEP=0Ub, * P, y cuando n > oo, 


va(nM5/2 — 1) 70, 


lo cual conduce, en virtud del teorema 3, a la concillabilidad del criterio de Morán de cualquier 
nivel registrado 1 — €. a 
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Siendo conciliable, el criterio de Morán no distingue, sto embargo, las hipótesis afines. 
Supongamos que X G P = Ud. 
F(1) = t+ pon” *”?, t€(0, 1), (10) 
p(0) = p(1) = 0, 


y que la función p(f) es continuamente derivable. Entonces 


a La] 
n?Ma = 3D an — Xx)? + 2 (ar 1) — Xa9) Y 
£=0 A=0 


Xx (plra +) — Pla) + VA IP(AR  ) — PAY. (11) 


ku0 


A 
La parte principal de la segunda suma aquí es igual a 2n D)p"(X)—xa +19) — Xa2))*, O bien, 
ka0 
en virtud de las mismas consideraciones que en (9), 


A 1 
2 2p"(k/m)4/n > 4 jp"(0ae = 0. 
ko 0 
E) último sumando en (11) también converge (en probabilidad) a cero, ya que su parte principal 
coincide (en distribución) con 


1 
, Kk 2 
Ya > ¿Lo (k/M1'E/n, 


koi 


o con > [orora — 0. Lo dicho significa que para la función F en forma de (10), la 
n 


O 
estadística 1%? /M,/2 — vn tendrá la misma distribución límite de dv, que para A) = 1 a 
Conviene señalar que de este hecho no se deben sacar conclusiones apresuradas de que 
el criterio de Morán es malo. La cosa consiste en que, sin distinguir las hipótesis afines de 
forma (10), e) criterio de Morán distingue otras hipótesis (que son, en cierto sentido, también 
afines) tas cuales no pueden ser distinguidas por otros criterios examinados en este párrafo. 
Se trata de las hipdtesis para las densidades. 
Examinemos la hipótesis M2 = (X e: P), donde la discribución P tiene una densidad de 
RO E cuándo 2kA, < 1 < Qk + 1)A,, 


k=0,1..,N- 1, 
O cuando (2 + NDA, «€ 1 < Qk + 2)42, 


donde da = y N = N, > 0 es un número entero. Entonces, para A, = 0(21 7 *2), la función 


de distribución Fp(£), correspondiente a la distribución P, poseerá la propiedad 
sup 1FAt) — tl = 01717), 
, 


Esto Quiere decir que la hipótesis H2 como hipótesis para la función de distribución será 
tan próxima a Y, = (X € Us.1), que los criterios de Kolmogórov y w? no las distinguirán 
(el valor límite de ta potencia cn el punto P coincidirá con el nivel límite del criterio). No 
obstante, como hipótesis para las densidades, las hipótesis H, y Ha se distinguen considerable- 
mente, ya que sup |f(1) — 11 = 1. Como xo) —= 0, Xu» 1) = 1, para X € P la estadística M, 
superará la magnitud AÍN = An/2. Por consiguiente, si n/N = 2n4, > «o cuando la 


23* 
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P-probabilidad es igual a 1, tendremos 
nMa > w. 

Fijando el conjunto crítico O = (mM, > 3) obtendremos P,(Q2) — 0. Esto significa que 
cuando A, = 0(17 12), Ann — co, el criterio de Morán distinguirá las hipótesis H, y Hz con 
una probabilidad próxima a l1. Con otras palabras, la estadística M, es sensible au las des- 
viaciones relacionadas con la densidad, y el propio criterio de Morán puede ser recomendado 
como criterio para verificar las hipótesis referentes a las densidades. Por otro lado, del $ 1.10 
sabemos que la velocidad con que las densidades empíricas se aproximan a la densidad verda- 
dera es inferior a n”*?. Por eso, la “indistinguibilidad” de las hipótesis de las densidades 
que difieren una de otra en orden de n”?? (véase (10)) no debe causar sorpresa. 

De acuerdo con el criterio de Morán y con algunos otros criterios examinados anterlor- 
mente, se puede hacer una observación general. Si se comparan dos criterios de un mismo 
nivel registrado, el primero de los cuales está destinado al rechazamiento de mayor número 
de alternativas que el segundo, la potencia del primer criterio para cada alternativa registrada 
rechazada por ambos criterios) será, por lo general, menor que la potencia del segundo. A 
título de ejemplo elementa) que ilustra esta circunstancia, el lector puede examinar los criterios 
hal > dez y MM >As destinados a verificar, respectivamente, las hipótesis («a yt 0] y 
(ar > 0] frente a [a = 0], basándose en la observación x, E €.,). Aquí A. es la cuantila 
de distribución €, de orden |] — €. Las potencias en el punto «x > O serán iguales a 

1 — Bom -Ar+r2 0% Apra — 0) < 1 Ph — a), 


respectivamente. 


8 13. Criterios asintóticamente óptimos. 

Criterio de la relación de verosimilitud como criterio 
asintóticamente bayesiano pare verificar una hipótesis 
simple frente a otra compuesta 


1. Propiedades asintóticas del c.r.v. y del criterio bayesiano. Examinemos 
el problema de verificación de una hipótesis simple H, = [YX E Po, ) fren- 
te a la hipótesis alternativa Hz = (X € Ps; 0 401, 0€ O). En los párrafos 
precedentes hemos visto, en ejemplos, que en este caso el c.u.m.p. no existe, 
por lo general. 

Vamos a examinar el planteamiento '““parcialmente bayesiano” del 
problema que hemos descrito en los $$ 4 y 9. El mismo consiste en la supo- 
sición de que 8 es escoge en Oz = O (9,) al azar, con una distribución Q, = 
= Q. Se puede considerar que Q se da en €, Q((0,) = O. En este caso 
la distribución dc la muestra X se definirá por la densidad “'mediada” 


febo) = (/)Qlar). (1) 
Ahora bien, si se conoce Q, entonces la hipótesis Ho, = Ho, en virtud de 
la cual X tiene una distribución de densidad (1), puede considerarse, junto 
con F,, como hipótesis simple, y para la construcción del criterio más po- 
tente se puede utilizar el lema de Neumann — Pearson. 


Resulta que en este caso para “casi todas” las Q suaves, los criterios 
más potentes coincidirán asintóticamente con el criterio de la relación de 
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verosimilitud Sup LO 
o SH) 
sl SA) Joa (X) ES E 
y, por consiguiente, no dependerán de Q. Este hecho permite considerar 
como óptimo el criterio hallado al menos en los casos en que se puede 
suponer que Ó en 0), se escoge aleatoriamente, pero desconocemos su distri- 
bución Q. 

Antes de enunciar el teorema respectivo recordemos algunos resultados 
que necesitamos y demostremos una afirmación auxiliar. En ella desempe- 
ñarán un papel muy importante las propiedades asintóticas conocidas de 
la relación de verosimilitud. Vamos a examinar inmediatamente el caso del 
parámetro multidimensional; todo lo necesario para esto se contiene en 
los 85 2.28 y 2.29. 

Así pues, supongamos que 0€89 C R*, k> 1, y que se cumplen las 
condiciones de regularidad (RR) cuya enunciación se da en el $ 2.28. Su- 
pongamos, además, que Q tiene una densidad q(t) respecto a la medida 
de Lebesgue AM(dí) = dt. 

Según el lema de Neumann — Pearson, el criterio no randomizado más 
potente To, = To para verificar H, frente a Ho tendrá la forma siguiente: 
TO(A) = 1 si 


Xe Mc) = (a Leo) 


> el, fa = fala) finas, a) 


donde escogeremos ec = c, más tarde, según el nivel dado del criterio. 
Los criterios bayesianos para verificar F, frente a Ao también tendrán 
la misma forma. 
Las probabilidades de los errores de primero y segundo género son 
iguales a 


SAX) | SU ) 
oa (a = Po >c), 1- > DP, dt, 4 
(ro) "oO B(rO) q(t) FCO Ec (4) 
respectivamente, donde f(rp = j feta" (dx) es la potencia del 
URL) < 9,00) 
criterio más potente. 
Podemos escribir las expresiones análogas para el c.r.v. que acepta 


Ho si se cumple (2): 
a (m) = PO 1d >cl, 


Je) 
SO ” 
LO < ear | fda. (5) 


UV) Lex)! 


o2() = |acor. 


390 CAP. 3. TEORÍA DE VERIFICACIÓN DE HIPÓTESIS 


Pongamos / = 1(0,) (el valor de la matriz de información de Fisher en 
el punto 01) 


LEO - (2 Pale ron 
fa (10 rn JT Í 
PH é(1) e NA), 

fa X) 


Entonces las regiones críticas de los criterios mg y * (véanse (3) y (2) 
pueden escribirse, respectivamente, en la forma 


TO) > ÑTXN>2€¿. (M 
Lema 1. Supongamos que se cumplen las condiciones (RR) del $ 2.28, 
XE Po, y que 0, es el punto interior de O. Entonces 


2TX) = 2 XXI + Een(X0) € Hr, En(20 70. 


Demostración. La afirmación del lema es el corolario evidente de los 
teoremas 2.28.4 y 2.28.5. Sólo debemos señalar que F(X) en las designa- 
ciones del teorema 2.28.4 no es otra cosa sino Y(u”) (cuando 0 = 01). «< 

2. Carácter asintóticamente bayesiano del c.r.v. 

Pasemos a enunciar la afirmación fundamental. Recordemos que cuan- 
do estudiamos las propiedades asintóticas de los criterios, en realidad tene- 
mos presente no uno sino toda la sucesión de los criterios r = mr», donde 
T, es el criterio basado en la muestra X,. Teníamos la misma situación 
al exarninar las propiedades asintóticas de las estimaciones. Ahora bien, 
aquí y en lo sucesivo, siempre que esto sea necesario, por criterio  entende- 
remos la sucesión de las funciones x»(X,) definidas para cada n y 
Xn = [X 0)». 

Definición 1. El criterio * para verificar la hipótesis H, = (90€ 01] fren- 
te a HH, = (0€ 0) pertenece a la clase K; de los criterios de nivel asintóti- 
co l1l-e si 


(6) 


lírm sup sup Mor(X) «€ €. (8) 
En nuestro caso, cuando la hipótesis MH, es simple y 9, = (9,), la rela- 
ción (8) se transforma en desigualdad: 


lím sup MO, T(X) < £. 

Sea R¿ una cuantila de orden 1 — e de la distribución A? de k grados 
de libertad (Hi((A,, 00)) = €). Entonces, del lema | se desprende que 
TO0Ek., TER: si co =€= he/2. 

Definición 2. Pongamos Cy = he/2, de modo que ro € K¿. El criterio 
r € K¿ se denomina criterio asintóticamente bayesiano (c.a.b.) en Ks para 
verificar la hipótesis H, = (6 = 6,)] frente a Ho si para las probabilidades 
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de los errores de segundo género, calculadas para la hipótesis Hg, es válida 
la relación 


ar) 1 f(x) _ Mo(l — TAN _ 
A TB ne Mall RN 


En esta definición hemos utilizado la relación (y no la diferencia) de 
las probabilidades de los errores de segundo género, ya que azr(rog) > 0 
cuando rn — oo. 


Teorema 1. Supongamos que se cumplen las condiciones (RR) y que el 
punto 0, es un punto interior de 8. Entonces el criterio de la relación de 
verosimilitud a (véanse (2) y (7)) para € = h¿/2 pertenece a K, y es el ca.b. 
en K. para verificar H, frente a Ho, cualquiera que sea la distribución Q 
cuya densidad q(t) es continua y positiva en O. En este caso 


S Li) 

donde 7 = 1(01), Vx es el volumen de la esfera unitaria en R*. 
Demostración. Ya hemos demostrado la pertenencia de x € X¿ cuando 

€ = h./2. Examinemos ahora los errores de segundo género. En virtud de 

(4) y (7) tenemos 


aa(1o) = | fol)" (de) = Mo, ( Lo. 2NX) < he] = 
(110)<Cco) 


E 20D, (7%; 27) S he]. 


Aquí, bajo el signo de esperanza matemática se encuentra la función limita- 
da de 27 que es casi por doquier continua respecto a la distribución límite 
(Hz). Por eso, cuando n > «o, xf E Ha, 


) 
Mo(e7O; 2700 < ho) MP dls ho= 


> qiyP 


= (27) *” dy... dy = (Qu) EP hE PV. 


ne 


ia ahora el comportamiento asintótico de a2(1). Designemos 
=> (X: q * 7). En virtud del lema 1 P9 ¡¿(An) — 0. Por eso, del teore- 
dla 2.29.5 se deduce que para cualquier N registrado, 


sup PoruvilAn) > 0. (9) 
lulEN 
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Hagamos uso de la representación (véase (5)) 
am) = [anPArOO < dt = 
Ez + ¡ < ÍanNPANA) € cjat + 
lr-01<N/IVA  1t-8,U>N/ VA 
+ | AOPLAn)a: + Í  atoPLTOO € ojal. 
H- 9 U<N/ VA I— 0, U>N/Vn 


En virtud de (9) obtenemos 
1/2 k/2 


lím sup n*Pon(7) < limn* a (ro) + 
+ máx q(()-lím sup Pol MA) < “Jas 
e OS Se (A) 
is—9>N/Vn 
Pero la probabilidad bajo el signo integral no excede 
Fe LA) 2 EN e 2 
P, AO Y) >e ) < exp (8/2 — |! — 9,1*ng/23. (10) 


Aquí hemos utilizado el teorema 2.28.1. Por consiguiente, la propia in- 
tegral no excede 
et/2 e- 1 *e/2du > 0 
lvl>N 


cuando N => «. De aquí se deduce que 
lim sup n*?a(%) < lim n*2a2(ro). (11) 
Es evidente que esto equivale a que £ es el c.a.b. 
Sólo queda determinar que a2(*) — a2(ro) O que, también en virtud 
de (11), 
lím inf n*202(+) > lim n* 02 (ro). (12) 
ru n.00 
- Para esto, nótese que el criterio ro construido es bayesiano y correspon- 
de a la probabilidad a priori q, de la hipótesis AF, que se define por la 
ecuación (compárense (3) y (6)) 


q _ (E £/2 a(01) 
l—-q n) JIM 


Esto quiere decir que la probabilidad del error xy se comportará asintótica- 
mente como 


e + (1 — qa (ro) - 1 + aro). 


Si admitimos que (12) no es cierta, obtenemos el criterio * para el cual 
la probabilidad del error será menor. Como esto no es posible, (12) queda 
demostrada. El teorema está demostrado por completo. a 
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De los razonamientos citados se deduce que en las probabilidades de 
los errores de segundo género hacen el aporte principal los valores aleato- 
rios de Ó que entran en el entorno n” !/? del punto 6, (con ello se explica 
el orden de pequeñez n”*'? de estas probabilidades). 

Las modificaciones insuficientes de los razonamientos para la demostra- 
ción del teorema 1 también permiten obtener la afirmación siguiente. 


Teorema 2. Los criterios ” y w*” con las regiones críticas 


= (x€2”: n(6* — ONO XÓ" —- NT > he), (13) 

Q” = (x€2”: L'"(X,0YT "0 XL U(X, 8,97 > he) 
son, a la par con r, los c.a.b. en K.. Esta propiedad se conserva si (01) 
en (13) se sustituye por J(Ó”). 


Los criterios (13) se obtienen si se utiliza el desarrollo 


p ZA) 
eS) 


en serie cerca del punto Ó* (véase el teorema 2.28.4). La forma del criterio 
F es, en cierto sentido, más cómoda, ya que no está relacionada con la 
dimensión. 

La demostración del teorema 2 se la concedemos al lector. 

En el caso unidimensional, el conjunto crítico 12” (al sustituir 7(6,) por 
I(Ó")) tiene la forma 


a (16 -01> a] 3 (14) 


donde, evidentemente, Re = Nrz» Do.r((—de/2, M/2)) = 1 — €, Vemos que el 
criterio xr * respectivo (14), que equivale asintóticamente a ”, puede interpre- 
tarse así: r*(X) = 1 si 6, no ha caído en el intervalo confidencial de nivel 
asintótico 1 — e para el parámetro 0, construido con ayuda de la e.y.m. Ú*. 

Esa misma interpretación también se conservará, evidentemente, en el 
caso multidimensional; además, los conjuntos confidenciales tendrán for- 
ma de elipsoides: 


= L(X, 0") - L(X, 01) 


(Ó6* - ONMÉÓ NÓ" - 0" <n "he. 


Asi pues, vemos que la e.v.m. está estrechamente relacionada con el c.a.b. 
a 1. Supongamos que X€ IL, y que se verifica la hipótesis 
= (A=»1) frente a H2(A + A). En este caso A* =x*, NA) =A 7! y 
sl 200 tendrá la forma 
AMY > hdM/n, 
donde H,((h<, c0)) = e. 
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Ejemplo 2. Supongamos que X € Pay: y que se verifica la hipótesis 
= ((a, 0?) = (ai, 0?))] frente a la alternativa adicional. Aquí á” =x, 


A : Le -2 
Ps ¿20 - xy, Ka, 0*) = de p 02) (véase el $2.16). Por 
eso el c.a.b. tiene la forma 
aa? , (8%-oY he 
»- 201 n y 
donde Ha((A,, 00)) = e. 

3. Carácter de no desplazamiento asintótico del c.r.v. Concluyendo este 
párrafo estableceremos que el c.r.v. (2) no está asintóticamente desplazado. 
Recordemos previamente que el criterio para verificar H, = (0 € O,] 
frente a HM. = (0€6,)] se llama criterio no desplazado si 

inf Mar — un Mor > 0. 
$0, 

Definición 3. El criterio r se denomina criterio asintóticamente no 
desplazado si 

lím inf ( inf Mer — sup Mor) 20. 
n—u 0€9, $£08, 

Teorema 3. £l c.rv. * (véase (2), (6) y (7)) para verificar HH, = (0 = 01) 

Jrente a Hz = (0 4 0,) es un criterio asintóticamente no desplazado. 


Demostración. Como en nuestro caso O, = (0,) y lm Mb, Íí = €, es 
suficiente cerciorarse de que 
lím infinf M4 = lím inf inf P, (A 15) > e) >£, (15) 
no "no  (€09 o. (X) 


donde é = h¿/2. 
De la estimación (10) resulta que existe N > O tal, que 


: Ji (XA) e 
e O > e )> e. 
Queda demostrar que inf M/F> eE 
1—6,1<N/VA 


Pero, en virtud de los teoremas 2.28.4 y 2.29.3, cuando X € P, unifor- 
memente respecto a u, lul < N, u = Yn(t — 61), 


PO) > (E IE 4%, EE dos, 


MAT) > JS -wMt-uY>eé= he/2). 


El segundo miembro aquí alcanza su valor mínimo cuando u = 0. Este 
valor es igual a P(E/ET>h)=e «< 
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$ 14. Criterios asintóticamente óptimos para verificar 
las hipótesis compuestas semejantes 


1. Planteamiento del problema y definiciones, En el $ 3 hemos estudiado 
dos enfoques asintóticos del problema de verificación de dos hipótesis 
simples A, y H». Si consideramos estas hipótesis fijas, o sea, invariables 
para el volumen creciente n de la muestra X,, entonces, al calcular las pro- 
babilidades de los errores, llegaremos al problema de las probabilidades 
de grandes desviaciones, de modo que la probabilidad de uno de los errores, 
como mínimo, convergerá a cero. De acuerdo con otro enfoque, las hipóte- 
sis Hf, y FR se consideran como elementos de la sucesión de hipótesis “que 
se aproximan”, en este caso la velocidad de aproximación se escoge de ma- 
nera que las probabilidades de los errores de primero y segundo género 
converjan hacia sus propios límites (distintos de O y 1). Hemos visto que 
en el caso paramétrico, los valores del parámetro 0, y 0, correspondientes 
a las hipótesis H, y Ha, deben distinguirse en orden de n”*?. Cada uno 
de estos enfoques puede ser justificado conforme a las condiciones 
concretas. 

En el párrafo precedente hemos examinado la distribución Q, no depen- 
diente de n, para el valor alternativo de Ó y, como era natural de esperar, 
hemos obtenido que la probabilidad de un error de segundo género conver- 
ge a cero como n”*'?. Esto se debe al hecho de que a esta probabilidad 
contribuyen principalmente las hipótesis semejantes para las cuales O está 
alejado de 6, a una distancia del orden de n” *? (el volumen de la región 
que contiene tales 0 tendrá precisamente un orden de pequeñez de n”*7?) 

En este párrafo examinaremos el problema de verificación de las hipóte- 
sis compuestas sernejantes, cuando los valores alternativos del parámetro 
se aproximan cuando n — oo. Resulta que en este caso, el problema de veri- 
ficación de las hipótesis se puede reducir, en cierto sentido, a un problema 
mucho más simple para la distribución normal. 

Pasemos a enunciaciones más exactas. Supongamos que a base de la 
muestra X€E Pa se comprueba la hipótesis A, = (0€0,) frente a 
H, = (06€ 08). Fijemos cualquier punto interior 6, del conjunto O y 
pongamos 


9=0 + yn"? (1) 
Ahora supongamos que el conjunto 6), tiene la forma 
8,=0+TInm7*”, (2) 


donde Ty no dependen de n. La notación (2) significa que 0 € O, sí y sólo 
sí en (1) y € T,. Las hipótesis H, = [0 € O,) para la condición (1) serán lla- 
madas, al igual que en el $ 3, hipótesis semejantes (en realidad son una 
sucesión de hipótesis propias de cada mn). 
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El problema de verificación de las hipótesis semejantes A, a base de 
la muestra X € Po se llamará problema A. 

Examinemos ahora otro problema, Sea Y € $, /-. una muestra de vo- 
lumen unitario de la población normal +, ,-. con un vector de valores me- 
dios y y con una matriz de segundos momentos 17 * = f” *(6,), donde 1(0,) 
es la matriz de información de Fisher para el problema A en el punto 0,. 
Designemos por h; las hipótesis [y € T'¿). El problema de verificación de 
las hipótesis h; a base de una sola observación Y € +, 7-. se denominará 
problema B 

El hecho extraordinario que permite realizar la reducción antes men- 
cionada consiste, aproximadamente, en lo siguiente, Sea r(Y) el criterio 
óptimo en uno u otro sentido (el c.u.m.p., el criterio bayesiano o el criterio 
minimax) para verificar h, frente a hz en el problema B. Y sea Ó”, como 
siempre, la ev.m. en el problema A, y” = (9* — 6,)Vn. Entonces el criterio 
T(y”) para verificar HH, frente a Ha en el problema A poseerá asintóticamen- 
te las mismas propiedades que el criterio r(Y) en el problema B. 

Ahora bien, para hallar el criterio asintóticamente óptimo en el proble- 
ma A, debemos examinar el problema B, que es más simple, y encontrar 
en éste (si es posible) el criterio r dotado de la propiedad de optimización 
necesaria. Si ahora tomamos, en calidad de la observación Y, el valor de 
y” y lo sustituimos en r, obtendremos el criterio buscado en el problema A. 

Este hecho podría llamarse indicio límite de optimización. Su sentido 
es bastante sencillo. Pues sabemos, de los resultados del capítulo 2, que 
cuando X€E Pa, 


Vn(Ó* — 93120) € do.£ 
uniformemente respecto a 0. Por consiguiente, para 0 = 0, + yn” *”?, 


Vn(Ó" — 81) — y E Bo.- 0) 
o bien, que es lo mismo, 
y E Pros. 


Así, pues, $, 7-:, O sea, la distribución presente en el problema B no es 
otra cosa sino la distribución límite para y”. Por eso, el indicio límite de 
optimización es muy natural: reduce el problema de verificación de las hi- 
pótesis a un problema “límite”. Lo interesante en todo esto es el hecho 
de que con tal reducción no ocurre ninguna pérdida considerable de infor- 
mación respecto a 0: el criterio óptimo en el problema B también conserva 
esta optimalidad con arreglo al problema A. 

Para conferir a lo dicho un sentido exacto, introduzcamos ahora los 
principales conceptos de optimización asintótica de los criterios para verifi- 
car las hipótesis semejantes en el problema A. 


) 14. HIPÓTESIS COMPUESTAS SEMEJANTES 397 


En el párrafo precedente hemos dado la definición de la clase K¿ de 
los criterios * de nivel asintótico 1 -— e (definición 2). Para re XK, es 
válida 

lím sup sup Mor) < e. 
7 «o ) 


Definición 1. El criterio rm, € K¿ se llama criterio asintóticamente más 
uniforme y más potente (c.a.u.m.p.) en K¿ si para cualquier y € Pz y para 
cualquier * € K; 


lim inf (Mor (A) — Mor(X)) > O, 


donde 0 = 6; + yn” !? € 6 cuando y€T. 

Supongamos que en J', se dan las distribuciones Il, que inducen en 60, 
algunas otras distribuciones (concentradas en el entorno n” *? del punto 
$1) que designaremos por Q;, 1 = 1, 2. Las hipótesis de que 0 se elige al 
azar con la distribución Q;, las designaremos, como antes, por ffo,. 

Por XK: designaremos la clase de criterios ” para los cuales 


lím sup Mo, TA) < e, 


donde Mo, significa la esperanza matemática incondicional de la distribu- 
ción compatible de 6 y X, 0 € Q;,, X € Py. Es evidente que KR. C K¿2 para 
cualquier Q. 

Definición 2, El criterio r, € Xf: para verificar Ho, frente a Ho, se de- 
nomina criterio asintóticamente bayesiano (ca.b.) en Kg si para cualquier 
otro criterio x € RP», 


Km inf (Mo,m(X) — Mo, T(X) > 0. (3) 


Se puede dar una definición equivalente del carácter bayesiano en la 
cual en vez de (3) se exige que 


lim inf (Mo, (O — Moret) > 0, (4) 


donde ro, o, es el criterio bayesiano de K£: para verificar las hipótesis Ho, 
y Ho, (o, que es lo mismo, el criterio más potente para verificar Hg, frente 
2 Ho, de nivel asintótico 1 — €). 

Cabe señalar que la definición 2 se distingue algo de la del c.a.b. que 
hemos dado en el párrafo anterior (véase la definición 13.2. AMí figura 
la relación de las probabilidades de los errores, y no su diferencia). Desde 
el punto de vísta de la exposición ulterior, estas definiciones son equivalen- 
tes, pero la última de ellas será la más conveniente para nosotros. 

Definición 3. El criterio *, € RX, se llama criterio asintóticamente mini- 
max en K; para verificar H, frente a Fl si para cualquier otro criterio 
” € K¿ se cumple 


Um inf ( pat Mox(X) — ni Mor(X)) 2 0. (5) 
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Al igual que al examinar los criterios minimax ordinarios (véase el $ 9), 
para evitar consideraciones poco importantes, es cómodo separar los con- 
juntos 9, y 02 por medio de cierta zona intermedia, de modo que ellos 
no se toquen. De lo contrario ambos límites inferiores en ($) pueden resultar 
iguales a e para cualquier criterio no desplazado asintóticamente r. 

De las definiciones citadas se deduce que la propiedad de una u otra 
optimización asintótica se distingue de la propiedad corriente de esa misma 
optimización tan sólo por el hecho de que ante la respectiva diferencia apa- 
rece el signo lím inf. 

A la par con los criterios asintóticamente bayesianos y minimax, en 
las clases K¿ y K2: se puede estudiar las clases asintóticamente bayesianas 
y minimax ordinarias. Supongamos que en O = 8, U80), tenemos la distri- 
bución Q = 9(DQ;, + 9(29Q», 4(1) + q(2) = 1. Entonces, el criterio rr, se 
denomina asintóticamente bayesiano para la distribución a priori Q, si para 
cualquier otro criterio r, 


Len inf [q()Mo TA) + a(Q)Mo, (1 — m(X)) — 


— (Mg, (A) — 42)Mo, (1 — TD) 50. (6) 

La probabilidad de error del criterio + promediado respecto a Q, presen- 

te en esta desigualdad, puede ser escrita mediante la probabilidad «a(r, 0) 
de error en el punto 6, en forma de Mpa(x, 0), donde 


Mor(X) cuando 0€0,, 
, 0 
AS Cda — T(A) cuando 0€68,. 
Entonces, la desigualdad (6) adopta la forma 


lím inf Molo( ri (20, 6) — a(r(X), 0)] < 0. 


Bl criterio xr, será asintóticamente minimax si 
lím inf [sup a(x1, 0) — supa(*, 6) < 0 
ne +49 $8 
para cualquier otro criterio r. 

El estudio de los criterios asintóticamente bayesianos (en X2:) y asin- 
tóticamente minimax (en K,), y simplemente el estudio de los criterios 
asintóticamente bayesianos y minimax es, de hecho, una misma cosa. Por 
ejemplo, el criterio bayesiano de Kf: es un criterio bayesiano ordinario pa- 
ra q(1) correspondiente. En este párrafo estudiaremos los criterios de las 
clases K¿ y KP:, en tanto que los criterios asintóticamente bayesianos y mi- 
nimax ordinarios serán examinados en los capítulos ulteriores al investigar 
un planteamiento más general del problema, 

2. Afirmaciones principales. Para simplificar al máximo la exposición 
posterior, introduciremos una suposición que de ningún modo está rela- 
cionada con la esencia de la cuestión y que, si se desea, puede ser retirada, 
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ya que para ello existen todos los resultados necesarios. Es decir, supondre- 
mos que Jos coniintas IT, están limitados, o sea, existe N > 0 tal, que 
PC (y: lyl < Ml. 
Definición 4. Los criterios x, y m2 para verificar las hipótesis semejantes 
H, = [90€ O,] y Ha = (06€ 6) a base de la muestra X, se denominan crite- 
rios asintóticamente equivalentes si 
lím sup ¡Mori (20 — Mor2(20 | =0. (M) 
n—« 0£08,U9, 
Después de tal suposición podemos poner la región 18 — 0,1 < N/vn 
bajo el signo sup en (7). 
Los criterios asintóticamente equivalentes r, y 2 poseen las propieda- 
des siguientes: 
1) Si x, €K¿ (o KP»), entonces m2 € K¿ (K2:). 
2) Si r, posee una de las propiedades de la optimización asintótica en 
las definiciones 1—3, el criterio w. poseerá esa misma propiedad. 
La primera afirmación se deduce de (7) y de la desigualdad 


sup Mom(A) < sup Mor (X) + sup [Mola — m)l. 
$0, 6€8, 6€0, 


La segunda afirmación se demuestra análogamente. Si, por ejemplo, rr, es 
asintóticamente minimax, el carácter asintóticamente minimax de r2 será 
el corolario de (7) y de la desigualdad 


inf Mora) > nf Men 00 = op [Mor — "yl. < 


Las condiciones de la equivalencia asintótica de los criterios son estableci- 
das por el 

Lema 1. Supongamos que en el entorno del punto 0, se cumplen las con- 
diciones (RR), ri(X) = Lira + em > e)» ¿= 1, 2, donde para X € Po, 
tienen lugar las relaciones en(X) PS 0, TAX) EG, y la distribución G 


es continua. Entonces, los criterios x, y 2 son asintóticamente equivalentes. 

Demostración. ¡IM.-1,(X) — Mim2(X)| < P,(4n), donde para el suceso 
As = (m(X) 4 m(4)] se cumple Po(4n) = Pa(T(A) + En(A) ><, 
TAX) + En(AO € €) + PATO + 2) Ec, TAX) + En2(X) > 0) 0 
cuando n > oo, ya que la distribución límite 7, es continua. Por consiguien- 


te, en virtud del teorema 2.29.5, sup _P.(4A»)>0. «< 
Ir—06,1 <N/VA 


El criterio bayesiano de nivel | — e en el problema B para verificar las 
hipótesis An, de que y se elige al azar con la distribución Il, en T,, ¡ = 1,2, 
lo designaremos por *m,n, (Y). Bste criterio tiene la forma 


(8) 
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donde € = c, se elige de la condición 
otr CM (dy) e e, ely, c) > PHN) >c) YE Ds: (9) 

Estas relaciones significan, evidentemente, que Mu, run, (Y) = €. 

Nótese que r(y) es una función analítica de y, En virtud de su analitici- 
dad, esta función no puede adquirir un valor constante en el conjunto de 
la medida positiva de Lebesgue o de la medida %,,s-. (de lo contrario sería 
constante en todas partes, lo cual sólo es posible cuando Il, = Ib). Por 
lo tanto, P(r(Y) = c) = 0 para cualquier c, y la distribución de r(Y) es 
continua. 

Supongamos, como antes, que roo, (X) designa el criterio bayesiano 
de nivel asintótico 1 — e en el problema A. 


Teorema 1. Supongamos que las condiciones (RR) se cumplen en el 
entorno del punto 0,. Entonces, el criterio *(X) = anmilv)» y = 
= (Ó" — 01) vn es asintóticamente equivalente al criterio «9,0. Y Por consi- 
guiente, es asintóticamente bayesiano. 

Además, 


sup [Ms + v¡r(A) — ely, c)l > 0 (10) 


Iixl GN 
cuando n — «o, donde p(y, c) = M, mm m(Y) está definida en (9). 


Demostración. Examinemos el criterio bayesiano ro,o, en el problema 
A. Este criterio tiene la forma 


_ [fr O TE (du) 
(o +ur (ADE, (du) 


Si X E Po,, entonces, en virtud del teorema 2.28.5, 
TA) = 5604 + E(X, 01) 

cuando 9 = 6,). Como la distribución de r(Y) es continua, 
y” = Y € %o 1-1, y como el criterio r tiene la forma r(y”) > c, en virtud 
del lema 1 queda demostrada la primera afirmación del teorema. 
La relación (10) se deduce de la representación 

Mo +44 T(X) = Mo, +y/v5 Hirro >< PH) > Cc), 
Y € €, : y del teorema 2.294, «< 


NX) 


(y =u 


Teorema 2. Supongamos que en el entorno del punto 0, se cumplen las 
condiciones (RR), y* = (Ó” — 01)Vn. 

Supongamos, además, que existe el criterio minimax «a (Y) de nivel 1 —- e 
para verificar 4, frente a fa en el problema B, y que este criterio es bayesiano 


m(Y) = arm ( Y) (11) 
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para las distribuciones a priori TI, y Mz que satisfacen las condiciones 


Mn,mi(Y) = 1D M,A(D, 
yeP. 

Mn,ti(Y) = sup M,T(D, Yedrr- 
rel? 


(compdrense con las condiciones 9.1). Entonces, el criterio *(X) = 
= an,nm. (y) será asintóticamente minimax en la clase K, de los criterios 
para verificar H, frente a Ha en el problema inicial A. 


(12) 


Demostración. Como ”, es un criterio de nivel 1 — e, entonces 


sup My: (Y) = Mn,*(Y) = e. 
yel 


De aquí, en virtud de (10) y (12), obtenemos 
lím sup Me,+/v5 TAQÍA) = lim Ma, ro, a (XA) = €. 


ne y€ 
Esto significa que ro,q, € Ka, To0, € K£:. 
Ahora es necesario demostrar que para cualquier criterio r* € K,, 
lím inf ( inf Mar(X) — inf Mer "(X)) > 0. 
rw 0€9, d€08, 


Tenemos 
lím sup 7d Mox"(X) < lím sup Mex *(M) < lim sup Mo, ro. (A). (13) 
€ 7—o n— 0 


La última desigualdad es válida en virtud del carácter bayesiano de roo, 
(o sea, de la minimización de q, Mo, qq: + (l — qi)Mo,(l — xro.0,) para 
qu correspondiente) y en virtud del hecho de que lím sup Mo, r (A) < €, 
lím Mo, Too, = €. 

Seguidamente, en virtud de (10) y (12) y del teorema 1, el segundo 
miembro en (13) es igual a 


lím Mo, Ti (y”) = Mn,mmnm(Y) = e M,mm(Y = 
n— yl ? 


= lím inf Mo, + viro.QlA). <a 
neo yP 

Teorema 3. Supongamos que existe un c.u.m.p. xr (Y) de nivel 1 — e para 
verificar £, frente a 42 en el problema B. Supongamos, además, que para 

cualquier y2 € Da existe una distribución TI, en T, tal, que 
(Y) = mn Y) (14) 
es el criterio bayesiano para verificar Kn, frente a hn, (aquí Tk está con- 
centrada en el punto y2). Entonces, el criterio r(X) = ri (y”) es el ca.u.m.p. 
(de nivel asintótico 1 — €) para verificar H, frente a Ha en el problema inicial 

Á. 

Nótese que para los problemas de los $8 5—-7 siempre se cumple la con- 
dición (14). Esto se deduce de la propia construcción del c.u.m.p. en estos 


párrafos, 
26—8030 
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Demostración del teorema 3. La pertenencia de =,(y*) € K¿ se deduce 
del teorema 1, ya que 
lím sup Mexi(y*) = sup lim Mer (y”) = sup ely, 0) € €. 

$89, 0€£0, n-w vel”: 


Sea ahora x* cualquier otro criterio de K¿. Entonces 
lím sup Mo, r*(X) < lím sup sup Mor (O) < € 


y, por consiguiente, r* también se puede considerar como criterio de X2: 
para verificar Ho, frente a Ho,, donde Q, está inducida por la distribución 
TI, (véase la enunciación del teorema), y Q2 está concentrada en el punto 
0) = 61 + yn”?*”. Si roo, es un criterio bayesiano de nivel asintótico 
1 — e para estas distribuciones, entonces 


lím Mo, ro, 0. (A) > lím sup Me, (A). 


Pero el primer miembro de esta desigualdad coincide, en virtud del 
teorema 1, con el valor 
lím Mo, m(y”) = lím Mo, Tr: (y ) «<A 
A no 
De un modo análogo se puede buscar el c.a.u.m.p. en la clase de los 
criterios no desplazados asintóticamente. 
Observación 1, Si las distribuciones IM, y IMlz están concentradas en los 
puntos y: y yz, respectivamente, entonces 


0 mINY- yY 
nr) = : | 
AY — ny MY — 07) 


xp 


Por lo tanto, la región crítica rn,n,( Y) tendrá la forma 
Yi(m - y = YM m-vy*><e 
En el caso unidimensional, de aquí obtenemos el c.a.m.p. (3.21) que hemos 
estudiado en el $3. 
Observación 2. Si la distribución NM, está concentrada en el punto u = 0, 
y la distribución Ilz es uniforme en la esfera lul < N, el denominador de 


la función r(Y) será igual a exp EJE y el denominador para 


grandes N y |yl < N - YN será próximo a Y 111 (27)*?. Por consiguiente, 
la región crítica para *n,n, con tales 11, y Mz será próxima al aspecto exte- 
rior del elipsoide 


YIY" ><, 
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y la región crítica del criterio asintóticamente bayesiano x1n,m.(y*) será 
próximo a 

y Ey"? > C. 
Esto no es otra cosa sino la forma asintótica del c.r.v. que hemos estudiado 
en el párrafo anterior (compárese con el teorema 13.2). 

Observación 3. En los teoremas 2 y 3 están presentes las condiciones 
consistentes en que el criterio minimax (teorema 2) o el cu.m.p. (teorema 3) 
para el problema B son bayesianos en caso de algunas distribuciones IL 
en TJ. En los capítulos posteriores veremos que estas condiciones son inúti- 
les: la clase de todos los criterios bayesianos comprende todos los criterios 
“inmejorables”, incluso los c.u.m.p. y los minimax. 


$ 15. Propiedades de la optimización asintótica del criterio 
de relación de verosimilitud que se deducen 
del indicio límite de optimización 


En este párrafo examinaremos algunas consecuencias de los resultados del 
$ 14, vinculadas con el criterio de relación de verosimilitud. Estableceremos, 
en particular, la potencia máxima uniforme asintótica y el carácter minimax 
asintótico del c.r.v. para algunos problemas importantes concretos, rela- 
cionados con la verificación de las hipótesis próximas. 

En lo sucesivo siempre estimaremos que en el entorno del punto 0, se 
cumplen las condiciones (RR). Para simplificar los cálculos será convenien- 
te, al igual que en el párrafo anterior, considerar, donde sea necesario, que 
los conjuntos T, están limitados. 

1. Ca.u.m.p. para hipótesis semejantes con alternativas unilaterales. 
Supongamos que el parámetro Ó6 es unidimensional y que se verifica la 
hipótesis unilateral Ff, = (0< 01 + yin” 1?) frente a la hipótesis A = 
= (0 > 0, = 0, + yn ?y, Y S y. 


Teorema 1. El criterio de relación de verosimilitud x(X) con la región 
crítica 
sup Js(X) 


0€9, 


-———_——— > C, 
sup Je(X) 


cuando O, = [0:90 < 0, + yn”*?],0, = (60 >01 + yn” *?)] y con un 
valor conveniente de c, es asintóticamente equivalente al criterio 

y =(6 -0)Vn>G«=XxI" "+, do) =1-e (2) 
y es el cau.m.p. de nivel asintótico 1-— e para verificar la hipótesis 
Hi = (0<0 + yn” '?)] frente a H, = [90>0, + yan” '?). En las for- 


mulas (2), T designa la información de Fisher I(0,) en el punto 0, para la 
familia Jo. 


26* 


RO) = (1) 
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Demostración. Del $ 5 se deduce que para una muestra Y € $,,1-: de 
volumen unitario, procedente de una población normal de varianza conoci- 
da I7?, existe un c.u.m.p. para verificar la hipótesis £, = [y < y1) frente 
a hz = [y > y) de forma Y > c,, donde c está definida en (2). Así mis- 
mo será, evidentemente, el criterio bayesiano para las distribuciones dege- 
neradas concentradas en los puntos y; y yz (o en los puntos y, y y > y 
si y = y2). A base de esto, del teorema 14.3 se deduce que existe el 
ca.u.m.p. de nivel asintótico 1 — e para verificar A, frente a Ha y Que el 
mismo tiene la forma (2). 

Queda demostrar que los criterios (1) y (2) son asintóticamente equiva- 
lentes. De acuerdo con el teorema 2.28.4, suponiendo que Z1(f) = 
_Ja +1 


, tendremos, cuando X€E Po,, 


fa, (X) 
sup Z,¡(un” 2) 
_ Uu>n En 
Os sup Zi(un 7 12) 
LS 


SUP EXp (301 - UI + EX) 
u>n 


= TX) + e 0, 

sup exp | =-(y” — YI + ¿PX 

uén 2 
donde O > 0 ¡=1, 2, 3, 

s, 

supexp | tr" - 2021) 
TX) = r(y y. = 

sup exp 3 - 5(y* — YI 

u «y 

exp -t" - nr) cuando y” < ya, 


= < exp -30" - Y + ¿Y - nr) cuando y < y” < y, 
exp ON - ve] cuando y” > y2. 


Esta es una función continua monótonamente creciente de y”. Por consi- 
guiente, la desigualdad 7(X) > c equivale a la desigualdad y” > c” para 
cierta c'. Además, como y” => Y E %o.1-1, entonces la distribución r(Y) 
es absolutamente continua. Las condiciones del lema 14.1 para los criterios 
(1) y () se cumplen. «< 

2. Ca.u.m.p. para alternativas bilaterales. Supongamos que el pará- 
metro 0 es, como antes, unidimensional, y que el problema A consiste 
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en verificar la hipótesis H, = ((0 — 61) Vn $(y1, y2)] frente a FL = 
= ((0 — 01) Vn € (y, y2)), y > y1. Designemos 

a Me Y o AN 

ia 2 , Á 2 - 

Teorema 2. El criterio de relación de verosimilitud *(X), definido en (1) 
para el valor correspondiente de c y para 9, = (0: (0 — 061) Va ¿(y1, y2)), 
O; = [8 (0 — 01) Vn € (y, y2)), al igual que el criterio 

ly" - yl a 1(0* —- 6,) VR -— yl < ce, (3) 


donde c. se determina de la ecuación Por (—c— A,C-— A) = e, son los 
caum.p. de nivel asintótico 1 — e para verificar Hi = ((9 — 01) Vn 4 
¿(vi» r2)) frente a Ha = 1(0 — 01) Vn € (y1, y2)). 

La demostración de este teorema es bastante parecida a la del teorema 
anterior. Del $ 5 resulta que para el problema B destinado a verificar, a 
base de la observación Y € %,,,-., la hipótesis 81 = [y ¿(y1, y2)) frente 
aha = [y€ (ri, y2)), existe un c.u.m.p. en forma de c”* < Y < c”, donde 
c* y c” se eligen de modo que 

Pure, CY) = Ba role”, 07) = E. 

Es fácil notar que podremos satisfacer estas relaciones si ponemos 
Cc" = Y — (e, 0” = y + Ce, ya que 

Pr y — Ces y + Cad) = Bor ((— Cs + A, a: + 4) <= e, 

rro (y — Cer y + 06)) = Pos-«((— Ce — A, Ce — A)) = e. 
Además, en el $5 hemos visto que para cualquier yo € (y1, y2) existe 
q € (0, 1) tal, que el criterio bayesiano xn, rr, al verificar la hipótesis Án, pa- 
ra la distribución M.: M(( y1)) = q, iy) = 1 — q frente a la hipótesis 
Am = ly = yo), tendrá la forma 

crc<Y<c!". 

Esto significa que las condiciones del teorema 14.3 serán cumplidas y 
que el criterio (3) será el ca.u.m.p. para verificar H, frente a Ha. 

Examinemos ahora el c.r.v. (1) para las regiones O; definidas en el teore- 
ma y mostremos que el mismo equivale asintóticamente a (3). Al igual que 
en la demostración del teorema 1, del teorema 2.28,4 obtenemos que, para 
XEP 01» 

sup Z,¡(un” *?) 

Enya 
Eo a Te AS 

sup Zi(un ) 

Mb ya 


sup exp (30 — uy I + EX) 
= ue. ya 


sup exp => lv" = YI + ¿2 
dy y2 


= TAO) + EP, 
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donde ¿UX)=>-0, ¡=1, 2, 3, 
P 


l,. 
Sup exp (30 — wy*l 


uE 


T(X) = r(y") = 


exp (Y = we) cuando y” < yr, 
exp 3 - y PI cuando y < y" < y, 
exp ¿0 - y2)*1 cuando Y < Y < n, 


exp ¿tw - APR cuando y < y”. 


De estas igualdades se deduce que »(y”) es una función continua monótona- 
mente decreciente de |y* — yl (ella es simétrica respecto al punto y” = y). 
Por eso la desigualdad r(y”) > c equivale a la desigualdad ly” = yl <c”. 
Como y" "YE%t/-:, entonces se cumplen las condiciones del 
lema 14.1. < 

3. Criterio asintóticamente minimax para hipótesis semejantes referen- 
tes a un parámetro multidimensional. Examinemos ahora el parámetro 
multidimensional 9. En este caso, el c.a.u.m.p. para verificar la hipótesis 
H, = (90€ 0,) frente a Az = (6 € 82), por lo general, no existe, y examina- 
remos el problema de construcción de los criterios asintóticamente 
minimax. 

Al principio es necesario exponer una observación general para simplifi- 
car los razonamientos posteriores. Dicha observación consiste en que el 
referido problema de verificación de las hipótesis siempre se puede “repara- 
metrizar” (o sea, introducir un nuevo parámetro) de modo que la matriz 
de información / = /( 61) en el punto 6, se convierta en matriz unidad. 
Para esto es suficiente (véase el $ 2.1) efectuar una transformación lineal 
e introducir un nuevo parámetro $ mediante la igualdad 


0 = BI7 1/2. 
Entonces, la matriz de información de Fisher J(8) para la familia para- 
métrica Pg,,-1 será igual, en el punto 6, = 0,117, a 
J(B1) = rv?pg- =E 
En este apartado nos será más fácil examinar el parámetro $. Siempre 


podremos volver al parámetro inicial con ayuda de la transformación lineal 
inversa. 
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Así pues, supongamos que / = /(0:) = E, y examinemos el problema 
A de verificación de la hipótesis 


Hi = (19-— 6,1 <an”*'?j frente a Hz = (19 — 611 > bn" *?), a < b(4) 


a base de la muestra X € Ps. 

Teorema 3. El criterio de relación de verosimilitud % definido en (1) para 
el valor correspondiente de c y para 9, = [6: 10 - 0,1 <an”'?] O, = 
= (6: 19 — 0,1 > bn7 1?) es asintóticamente equivalente, para cualesquiera 
0OKa<b< oo, a los criterios 


JA) $ 
AS e 
ly*| = 1(6* — 0,) Yn! > ce, (6) 
donde dc es la solución, respecto a c, de la ecuación 
pela) =P(E+rat+ Es ¿+ E6>c)=eE€, (7) 


yes el criterio asintóticamente minimax de nivel asintótico 1 — e para verífi- 
car las hipótesis H, y Ha definidas en (4). Las variables aleatorias E, en (7) 
son independientes, E, € Po, 1, la potencia límite garantizada de los criterios 
T, (S), (6) es igual a pe.(b). 


Demostración. Aquí el problema B consistirá en verificar, valiéndose 
de la observación Y € d,, £, la hipótesis K1 = [lyl < a) frente a 47 = 
= (ly! > b). En el ejemplo 9.1 hemos visto que en este problema existe 
un Criterio minimax de nivel 1 — e que tiene la forma 


Nil ><. 

Para construir este criterio hemos utilizado el teorema 9.1. Esto significa 
que las condiciones del criterio 14.2 se cumplen. Por consiguiente, el criterio 
ly?! > Ce 
será un criterio asintóticamente minimax de nivel asintótico 1 — € para el 

problema A. 


El criterio de relación de verosimilitud (1) aquí tendrá la forma 
- 1/2) 


á 
Observando exactamente los razonamientos utilizados en las demostra- 


ciones de los teoremas 1 y 2, obtendremos que R(X) = TA(A)) + en(AO, 
e AX) A 0, donde 


sup ap] ly — ul? 


lul»a 


TA) = r(y”) = 
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De aquí, como antes, se deduce la continuidad absoluta de la distribu- 
ción r( Y) y la equivalencia asintótica de los criterios R(X) > e y T(A) > c. 
Este último equivale al criterio 

lyl>c', 
el cual, cuando c” =C€z, será un criterio de nivel 1-— €. Según el 
teorema 14.2 (véase (14,10), éste tendrá una potencia límite garantizada 
igual a pe(b) (véase el teorema 9.2). «< 

Observación 1. Si volvemos al parámetro inicial (hasta la reparametriza- 
ción que transforma /(6,) en una matriz unidad), obtendremos que la afir- 
mación del teorema será válida respecto a las hipótesis Hi; = (0 € 8;), 
donde (compárese con el ejemplo 9.2 cuando a? = 17?) 

O, = (0: (0 — 9,11(0,0 - 9) <an”?), 
O, = (0: (0 — 0010 - 0) > din” !). 
El criterio (6) adoptará la forma 
(Ó" — O1)I(000" - YN > 
o bien (véase el teorema 13.2) 
LUX OM ONU AX, AY > el. (9) 


El criterio de relación de verosimilitud no variará, evidentemente, ya que 
el valor máximo de fs(X) en la región O; no depende de la sustitución de 
las variables (después de la transformación correspondiente de las regiones 
de 8;). 

También cabe señalar que la forma del criterio (9) es, a veces, más cómo- 
da que la del (5) y el (6), puesto que no está relacionada con los cálculos 
de 6”. Sustituciones análogas pueden hacerse con arreglo a los criterios 
(2) y (3) en los teoremas 1 y 2. Le dejamos al lector que las haga él mismo. 

Observación 2. De un modo absolutamente análogo al teorema 3 se 
puede construir el criterio asintóticamente minimax para los problemas A 
gue pueden ser reducidos al problema B examinado en el ejemplo 9.5, 

Observación 3. En el $ 13 hemos construido el criterio asintóticamente 
bayesiano para verificar la hipótesis (0 = 6,) frente a (0 x 6,), el cual tiene 
la forma del c.r.y. 

ASA 


Sflxo)y” — 


Ahora bien, este criterio, siendo el c.a.b., también posee propiedad asintóti- 
camente minimax al verificar la hipótesis (0 = 6,) frente a [(6 — 01)1(01) x 
x (0 - 4) > b?n7')] para cualquier b > 0. 

4. Criterio asintóticamente minimax de pertenencia de la muestra a una 
subfamilia paramétrica. Ahora examinaremos el c.r.v. en un problema más 
complejo de verificación de la hipótesis H, = (06€ 6,1] frente a Hh = 
= (0 € O] cuando la dimensión / del subconjunto 0, es positiva pero me- 
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nor que X > 1. Supongamos que tenemos la función suave 0 = g(a) del 
parámetro /-dimensional (/ < k) «€ A, C R”'. La imagen del conjunto A; 
en O, engendrada por la aplicación de g, podemos designarla por O). El 
problema consiste en verificar la hipótesis H1 = [0 € 01) de que el pará- 
metro Ó pertenece a la “curva” O, (o bien de que X € Paca) para cierto 
a € Ar) frente a la alternativa adicional (X € Ps;0 (0, ), así que en este 
caso O = 8 16,. Con otras palabras, éste es el problema de verificación 
de la pertenencia de la muestra X a la subfamilia paramétrica de distribu- 
ciones (Pa); % € Ar). 

A esta clase de problemas pertenecen, por ejemplo, los problemas ya 
conocidos de verificación de la hipótesis (X€E $a..0.] frente a 
(X € 8. 01; a e 0] para un valor de «oy dado y un valor de a? desconoci- 
do, o los problemas de verificación de la hipótesis (X € Pa..¿] frente a 
(X € %...2;0 = 0) para un valor de dv dado y un valor de a: desconoci.- 
do, y otros. 

En cuanto a la curva 0 = g(«) en 8, supondremos que la misma es 
dos veces continuamente derivable, y que la matriz G = Udg;(a)/dayl 
(i=1.., 471, ..., / gr(a) y ou son las coordenadas de g(a) y o, respecti- 
vamente) tiene el rango /. Esto quiere decir que podemos realizar la sustitu- 
ción biunívoca derivable del parámetro (la reparametrización del problema) 
de modo que las primeras / coordenadas (sin limitar la generalidad se puede 
suponer que las mismas constituyen a = (ay, ..., 04) determinen la posición 
del punto O en la curva 61, y las demás (designémoslas por f£ = 
= (81, ..., Bx- 1)) que determinen la posición de 0 en el “plano” (subespa- 
cio), digamos, ortogonal (pero no obligatoriamente) a la “curva” g(«) en 
el punto a. Entonces, el problema se reduce a la verificación de la hipótesis 
($ = 0) frente a [8 x 0) siempre que exista el subparámetro ““obstaculiza- 
dor” desconocido «x. 

En este caso examinaremos las hipótesis semejantes, suponiendo que 
B = y"n71*?, y comprobaremos la hipótesis (y” = 0] frente (y” 0), 


o frente a 5 
(y"Mioa)y”? > b*) (10) 


para b> 0 y para cierta matriz definida positivamente Ma(a). 

En las coordenadas iniciales, el último problema corresponderá a la ve- 
rificación de la hipótesis Ff, = (0 € 6, ) frente a las alternativas semejantes, 
cuando el parámetro 0 se sitúe en el entorno n” !”? de la curva 6, y perma- 
nezca fuera de cierto “tubo” que contiene 9) y corresponde al conjunto 
(10). También es posible otra variante de planteamiento del problema de 
verificación de las hipótesis semejantes, la cual parte del hecho de que el 
parámetro Ó está “localizado” y sabemos que el mismo se halla en el entor- 
no de cierto punto 0. = g(a”), a * € A). Entonces, el nuevo parámetro 
7=(fB,a — a?) será localizado cerca del punto 7 = (0, 0). Pongamos 


410 CAP, 3. TBORÍA DB VERIFICACIÓN DE HIPÓTESIS 


a- ars y/n7?,B=y*n"*"? y comprobemos la hipótesis (y” = 0] 
frente a [y” 0] o frente a (y*Ma(a”)y"* > b?) al disponer del pará- 
metro localizador y”. 

Los resultados que nos interesan en estos dos planteamientos de los 
problemas coinciden prácticamente. Sin embargo, es más cómodo investi- 
gar el segundo planteamiento, puesto que en este caso disponemos de todos 
los resultados previos necesarios. La suposición acerca de la localización 
del parámetro 6 tiene carácter convencional, y la forma de las afirmaciones 
obtenidas más abajo no dependerá de 0b. 

Así pues, consideraremos que el nuevo parámetro 7 = (a — a”, 6) tiene 


la forma 

1% lo de tr”, Y), 

y comprobaremos la hipótesis M=(y” =0) frente a M= 
= (y"M2y”" > b?), donde en calidad de M;¿ = M2(a”) tomaremos la 
matriz de información de Fisher para la familia paramétrica (Peco,s,) en 
el punto f = 0, donde 0(7) = 0 ((a: — a*, B)) es la función que reconstruye 
6 según el valor de r = (7*, 7”). 

Teorema 4. Supongamos que 0. = g(«”) es un punto interior de 0, y que 
en el entorno de este punto se cumplen las condiciones (RR). Supongamos 
también, que la función g(a) es dos veces continuamente derivable en el 
punto a? y que la matriz G = ldgi(a)/dajlas a: tiene el rango 1. Entonces, 
para O, y O» definidas anteriormente, así como para c correspondiente, el 
criterio de relación de verosimilitud equivale asintóticamente a los criterios 


T= yn” 


SHA) 
RA) a 11 
A 07 di 


(Ó" — (“YI - ga)” > hen”, 
. 2. e e o T | (12) 
(Ó9" — g(á“YIÓ NÓ" — g(6*)” > hen 
y es el criterio asintóticamente minimax de nivel asintótico 1 — e para 
verificar la hipótesis Hi, =(0€89¡)] = ly” =0] frente a H;,= 
= [y May”? > b?). 

La distribución de la estadística 2 1n R(X) para X € Pao”) (o sea, para 
la hipótesis HH) converge, cuando n —> «o, hacia la distribución x? de k = 1 
grados de ilbertad (y, por consiguiente, no depende de fo y ax”). De acuerdo 
con esto, h en (11) y (12) significa la cuantila de orden 1 — e de la distribu- 
ción Hx-:. 

La potencia asintótica garantizada del c.rv. es igual a P((t, + by + 
+ E +... +¿h-:> he), donde t; € $o 1 y son independientes. 

Vemos que los criterios asintóticamente minimax (11) y (12) no están 
de ningún modo relacionados con aC. 
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Observación 4. La hipótesis Ef, en términos del parámetro inicial 0 
puede ser escrita de la forma siguiente: 


H = 
= (inf(9 — g(a? + yn" “2)g(a MO — gl? + yn" 27 > bin!) 


Recordemos que consideramos limitado el conjunto I',, ya que aquí 
(0 - 6) € Nn7*?, ly"1 < N para cierto N > 0. 

Observación 5. Como veremos de la demostración, la afirmación del 
teorema conservará por completo su validez si la hipótesis H, = [y” = 0) 
es sustituida por H, = (y”M2y"* < a?), a < b, con la sustitución respec- 
tiva del conjunto 8.. 


Demostración del teorema 4. En calidad de criterio “principal” aquí examinaremos el 
criterio (11) equivalente a (1) y más córnodo en cuanto a su forma. Además estableceremos 
la equivalencia asintótica del mismo respecto al criterio asintóticamente minimax, y luego, 
su equivalencia asintótica a (12). 

Examinemos las distribuciones Po y Pro) como dependientes de los parámetros 
72 (7",r")ya = 7” + a”, respectivamente, Pongamos 1 = yn" ?*?, y = (y”, y”), de modo 
que 1 = y 'n7?”?, y” m= y"n7*?, y comprobemos la hipótesis H, = (y” = 03] frente a 
Hh = (y"Miyr"* 2 b?*), donde M, es la matriz de información de Fisher para la familia 
Paco) en el punto a”. Efectuemos ahora una transformación más de) parámetro, semejante 
a la realizada en el ejemplo 9.4 y la cual convierte las matrices de información en matrices 
de unidad. Supongamos que e = TA y que, respectivamente, 3 = yA (0 = ¿3n*2), donde 
Á es una matriz triangular, semejante a la descrita en el ejemplo 9.4 y la cual posee las pro- 
piedades siguientes: 

Jm ATMTlA=E, Ji' = AMI As = E, 


donde J, M, J,, M2 son matrices de información en el punto 6, para q, 7, q”, 7”, respectiva- 
mente (las tildes superiores y las designaciones tlenen el mismo sentido que en 5”, r”, y”, 
1”), Az es la matriz del orden (k — /) x (k — f), formada por los últimos K — / renglones 
y columnas de la matriz A, de modo que q” = 7” Az, 5” = y”Az. 
En nuevos parámetros las hipótesis HF, y Pz se escribirán de la forma siguiente: 
Hi = 167” =0)], Hi = (15"1 > b). 


De las propiedades de las transformaciones realizadas se deduce que 6 = 6) es una fun- 
ción biunívoca de q y que todas las familias paramétricas examinadas (Incluso con parámetros 
o'. 0”) satisfacen las condiciones (RR). Pongamos go = 97 '(80) (ésta es la solución de la 
ecuación (9) = 60), 

ZA0) = fos (ADVSNA, You) = In Zo(un 7 12), 
Hagamos uso del teorema 2.29.3. Para tul € ¿yVn, X € Pe) obtenemos 
a= 20 +m7', 


Yo(s1) = (Ex + 6, u) — 0 u) + (ll? + 158 le (X, u, 5), (13) 


donde lea(X, u, 8)1 < a > O uniformemente respecto a 6 para 16! < 3,Yn, donde Ú, es 
lo) 

una sucesión arbitraria que converge a cero. Bn estas igualdades hemos utilizado el hecho 

de que la matriz de información para el parámetro oy es una matriz unidad. El vector £, es 
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el vector de las funciones derivadas n” *“*L(X, 0(q)) respecto a gy en el punto q = qo + 
+ 8” 2, de modo que £, € do £ uniformemente respecto a q (respecto a 3) cuando 
151 < 5, Va. (En vista de la suposición de que (6 — 6p) vn está limitada, aquí y más adclante 
es suficiente establecer la uniformidad de convergencia para 181 € N, cuando N se ha registra» 
do arbitrariamente. Sin embargo, nada nos molesta establecer también la uniformidad necesa- 
rla en una región más amplia 15l £ 8, Va — co.) 

Ahora supongamos que u = (4', u”) u” = O en (13) Entonces, según el acuerdo ante- 
rior respecto a los símbolos con tildes, podemos escribir 


Yol(u*, 0) = (87 + 8", 4") — ¿6 u') + (lu? + 181 )e(X, u*, 8). (14) 


De (13) y (14) se deduce que los valores máximos de Ya(u) y Yo(u”, 0) se alcanzan, respectiva- 


RES u=(E + 5ME + ex(X, 8), 48 
ul = (E + 8 KE + e X, 6), 
donde ex(X, 5). - a “NX, a > () uniformemente en 3, l3l < 5, Ya/2. Tan sólo es ne- 


Pee 
cesario notar E la probabilidad de grandes valores de l£, + 51 es uniformemente pequeña, 
ya que Ea + 3 € d3, s uniformemente en 3, 151 < 8, Yn y Pa(lE, + 31 > 5, VA) — O uniforme- 
mente en 8, 18l < 6, va/2. 


Volvamos ahora a examinar el cr. Pará 6 = 6, X € Po, q = q + 017?” tenemos 
supf(A) — muperAu 
L] 


R EIA «<>—>%»=%4Mm0> A] Y 
dd AE TA 


3 +37 + EX, 8) 


= Ep (Suera 5” 1? + 8n (X, a]. (16) 
315 + 58104 EX 8) e 


donde la función £, con diferentes índices converge a cero en Pe-probabilidad uniformemente 
cuando (8| < ¿4 Ya: 


2 ln Ri(X) > 1IY* +5"1?, Y € Los, (17) 
uniformemente en d, 
En vista de que para 0 = g(a) con la necesidad de 5” = 0, de aquí resulta la afirmación 
del teorema respecto a la estadística 2 ln R,(X). 
Recordemos ahora que (véase el teorema 2.29.3) E, = "(E + ex(X, 3), donde u” u 
= (q —- grYn. 0 q* es la ev.m. para el parámetro y. De aquí y de la igualdad qo = 0, suponjen- 
do 5” = (q* - q Va, obtenemos 
E +3=vVA(Q — q 00) + U“ea(X, 5) = VA(Q* — q0) + 
+ EX, 6) = 3” + un en(X, 5) € dl, y, 
E + 5% = (8% + (uen(X, 8))”. 
Por lo tanto, el segundo miembro en (16) también puede ser escrito en la forma 
1651 + e (Xx, a]. es (X, 5) — 0. Esto quiere decir que el criterio 
Po 
(57712 > he (18) 
y el cr.v. son asintóticamente equivalentes, o sea, 
Atom sup Pe(RIO > 2 = lim sup Pe(15%17 > hp) e, 


nue a 
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lím sup PARLA) > eA/2 = lím sup Po(l5*)1? > Ag) = 
aw 668) n-—w $092 


= sup PY" +56 > A) PO + by + A+... + yh-1 > he), 
15 1>4 


donde y, € %,, son independientes. 

Demostremos ahora que el criterio (18) es un criterio asintóticamente minimax de nivel 
asintóvico 1 — e. Hagamos uso del teorema 14,2. En nuestro caso, 5* = (q” — q0) Vn € %.5. 
El problema 58 para Y € 6; 7 se ha examinado en los ejemplos 9.3 y 9.4. Allí hemos estableci- 
do que el criterio 

IY"12> he 
es minimax y de nivel 1 — g. Por consiguiente, de acuerdo con el teorema 14.2, el criterio 
(18) es asintóticamente minimax. 


Para terminar la demostración nos queda establecer ta equivalencia asintótica de (11) 
y (12). Esta equivalencia se deduce fácilmente de los resultados del $ 2.29 y del lerna 14.1. < 


Ejemplo 1. Supongamos que X € 4, ¿:, donde A y o? son parámetros 
escalares. (Aquí utilizaremos el símbolo A en vez del a tradicional para que 
no haya confusión con el argumento de la función g£(«)). Es necesario veri- 
ficar la hipótesis [A = ko] frente a (A > Ao] o frente a (lA -»o | > 
> bn” "?), b> 0, cuando o se desconoce. Sabemos que en este caso las 
ev.m. tienen la forma siguiente. Si ambas componentes A y a? del vector 
$ = (A, a?) se desconocen, entonces la ev.m. para 8 es 


e e (x 8? 21 Y 
==) *=1 3) 0-1 
¿mi 

Si = do, la ev.m. para o* tiene la forma (0?)” = S? = z Sa = MY, 
así que g(a*) = Qu, S?). Como 

SAX) = (V2x0)”" exp [-(20%)”* 204 - M7, 
el criterio de la relación de verosimilitud (11) tiene la forma 

Si/S? > e. 
En virtud de la igualdad S? = S? + (x — AM), este criterio equivale al 
criterio 
Ix = MI/S > c,. (19) 


Pero éste es el conocido criterio de Student que hemos examinado anterior- 

mente (las propiedades óptimas de este criterio se exponen en el $7). 
Es fácil comprobar que el criterio (12) tendrá esa misma forma. En efec- 

to, en el $2.16 hemos visto que la matriz /(0) para la familia $, ,. tiene 


la forma 
as 0 
sia ( 0 e.-1) 
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En nuestro caso Ú* — g(a*) = (x — Md, S? — SÍ) = (x — do, n(x — »o)”), 
S7 1 
pr? 1d EZ ( ) 
( ) 0 (2 s*)” 1 
Como en el primer miembro (12) figura el cuadrado de la norma 
le(a*) —- 6 0)12(6*)1?, el criterio (12) tendrá la forma 
7 2 ls 4 
G q Na 
que, evidentemente, me a (19). Ñ 
Si en vez de /(0”) aquí utilizamos /(g(a”)), obtendremos el criterio asin- 
tóticamente equivalente 
Ix — M1/S1 > Ci. 


Ejemplo 2. Supongamos que X € $, .:. Se necesita verificar la hipóte- 
sis (o = 00) frente a (lo? — o3l > bn” *?)] cuando se desconoce A Aquí, 
la ev.m. Ó” para 6 = (A, 0”) será, evidentemente, la misma que en el ejemplo 
precedente. Si gd = 0, entonces A* =x, de modo que g(a”) = (x, 03), 
d" — g(a*) = (0, 04 — 8S?), 

Los criterios (11) (o, que es lo mismo, el criterio de relación de verosimili- 
tud) tienen la forma 


— 06) /0 > 2han”?, 
que equivale, evidentemente, a 
182/74 - 11>V2hn"*, 


donde %o 1((A21?, c0)) = e/2. Este criterio también ya fue examinado en 
el 57. 


$ 16. Criterio x?*. Verificación de las hipótesis 
por los datos agrupados 


1. Criterio x?. Propiedades de optimización asintótica. El criterio x? como 
tal se destina a verificar, basándose en la muestra X de la distribución 


polinomial Bo, 0 = (0,, ..., 0,), Y,0, = 1, la hipótesis simple H, = (0 = p) 
ful 
frente a la alternativa adicional Ha = (0 + pl], p = (p,, ..., P2). La distribu- 
ción polinomial Bs se describe por las probabilidades 0, = P(4)), 
¡ u ],...,7, de que se produzca, en cada prueba aislada, uno de los r sucesos 
disjuntos Aj, ..., Ar. El elemento x; de la muestra X de esta distribución 
puede representarse como uno de los vectores €, , ..., e, con r coordenadas. 
La coordenada del vector ex(r — 1) es igual a cero, y la coordenada del 
número k es igual a 1. En este caso x; = ex si se ha producido el suceso 
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Ax. Designemos por yx el número de veces que se produce el suceso Ax 


en n pruebas independientes. Entonces » = (vw, ..., Y,) = Xy es una esta- 
jul 

dística suficiente para 0, ya que la función de verosimilitud /+(X) tiene la 

forma 


J(X) = TI 9r. (1) 
(1 
La estadistica x* es, por definición, 


ON ó (1 — mpp' 
x“(A) = AMA, 


dal 


y el conjunto crítico del criterio x? (la región de aceptación de Fh) tiene 
la forma 


A ><, 


donde c se elige según el nivel de significación establecido. 

Ahora examinemos más detalladamente el problema antes enunciado 
acerca de la verificación de la hipótesis H, = [0 = p)] frente a 
Ha = (9 > p). 

Está claro que las distribuciones (B+) forman una familia paramétrica 
que no depende del parámetro k « (7 — 1)-dimensional (9,, ..., 9-- 1); el va- 


r-1 
lor de 0, se define por la igualdad 6, = 1 — >6;. El vector (9,, ..., 0-- 1), 
jm| 
al igual que el (0,, ..., 0,-), será designado con la letra 0. Esto no provocará 
equivocaciones. La región 9 no es otra cosa sino el simplex 6, > 0, 


r-1 
i=1,...r-— 1. »;6, < 1. La función logarítmica de verosimilitud L(X, 0) 


A ful 
es igual a 


L(X, 0) = Y, veInóz = 9, (Qu, 0). (2) 

kol iwl 
La familia (B») satisface las condiciones (40), (A,), (4c), y también las 
condiciones de regularidad (RR) en cualquier punto interior de €, o sea, 


en cualquier punto 0 para el cual todos 6, > O. Bfectivamente, en nuestro 
caso 
[(x1,0) = in0; para xi = ey; 
6p* para x, = 6), 
0021971 paraxi=eér, (3) 
90, 


0 para x; 4 8, X1 % e,, 
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Y para Xx, €)» 
2 ¿y 
e =4 -07? para xi =é, (4) 
PES 0 para xy 4 ej, Xy Y €,, 


donde dy es el símbolo de Kronecker. De estas fórmulas se deduce que 


3067 4 J 


Parte de las condiciones (RR) relacionadas con la existencia de las espe- 
ranzas matemáticas, aquí se cumplen evidentemente, ya que en nuestro caso 


el conjunto x es finito. 
De (3) o (4) se deduce 


E 9x1, 0) | _ 50, 1 


hbj=1,...r — 1. 
Si en esta matriz sustraemos la primera fila de todas las demás y luego 
utilizamos el desarrollo en elementos de la primera fila, obtenemos 


IKO)l = ( + $50 0? = (1 o) 
Jul jul Jul 


Así pues, O < 17(6)| < as si [[ 6x > 0, o sea, si el punto d es el punto 
k=] 

interior del simplex 0. 

Por lo tanto, vemos que podemos utilizar los resultados de los $$ 13 
y 14 en los criterios asintóticamente óptimos. De estos resultados se 
desprende que para verificar la hipótesis AH, = (9 = p] frente a 
H, = (0 4 pj existe un c.a.b. que coincide con el criterio de relación de 
verosimilitud 


Ji(X) 

JA) 

Este mismo criterio será asintóticamente minimax para verificar H, frente 
a la hipótesis ((9 — p)(00 — p) > b?n” 1!) (véase el teorema 15.3). 

Para hallar de una forma más cómoda la región crítica (6), es necesario 


calcular el valor de f¿+(X). Derivando (2) respecto a 60,,...., 0,- 1, Ob- 
tenemos 


> Cc. (6) 
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Igualando a cero estas derivadas, obtenemos que la e.v.m. equivale a 


6 =n"!y, 
Así que Ó; = n”!»,. 
Ahora bien, pasando a los logaritmos, el criterio (6) se puede escribir 
de la forma siguiente: 


YUA) = y ln > a. (7) 


De acuerdo con el teorema 13.] (véase también el lema 13.1), la estadísti- 
ca 2y*(X) para la hipótesis A, tiene una distribución límite x? con r — 1 
grados de libertad. Por eso obtendremos el criterio de nivel asintótico 1 — € 
si ponemos €, = h+/2, donde h, es la cuantila de la distribución H,.. , del 
orden de 1 — e. 

¿Qué representa en nuestras condiciones el criterio r” asintóticamente 
equivalente a (6), obtenido en el teorema 13.2 y que tiene la forma 


n(Ó* — pPIWwWXÓ* - pY" > ha? (8) 


r—1 
Para f = (fr, ..., fr-1), 5= Y,f, obtenemos 
¿u] 


paa 2 P 
at Y 09) 


donde 
f=-s Ya=0. (10) 
ful 


Suponiendo t = Ú* — p y notando que la condición (10) está cumplida, en 
calidad de (8) obtenemos 


7 (a — npiy' 
AAA > he. (11) 


del 


Esto no es otra cosa sino el criterio x? De las afirmaciones citadas 
se deduce que x*(X) € H,- 1. 


27— 803 
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El criterio r” en el teorema 13.2 equivale asintóticamente a (7) y (11) 
y tendrá la forma 


HL (12) 
e] 


Teniendo también en cuenta el teorema 15.3 y la observación 15.1, podemos 
resumir lo dicho en la forma de la afirmación siguiente. 


Teorema 1. El criterio (7) para c, = he/2, así como el criterio x? (11) 

y el criterio (12) tienen un nivel asintótico 1 — e y son los c.a.b. para verificar, 

basándose en la muestra X € Bo, la hipótesis [0 = p) frente a (0 x p). 

Estos son, a su vez, los criterios asintóticamente minimax para verificar la 

hipótesis (0 = pj frente a la alternativa (Ea — p/p > b/n] para 
ml 


cualquier b > 0. 
La equivalencia asintótica de los criterios (7), (11) y (12) también podría 


: , (da ; y 
ser establecida directamente, utilizando el desarrollo en serie de ma = 


= JE po 02) en (7). 
"PI 


Estos criterios son asintóticamente no paramétricos, ya que la distribu- 
ción límite de las estadísticas que se utilizan en ellos es “absoluta”, o sea, 
no está de ningún modo relacionada con la naturaleza de la distribución 
inicial. 

2. Aplicaciones del criterio x?, Verificación de las hipótesis por los datos 
agrupados. El criterio x? está ampliamente difundido y su importancia sale 
fuera de los límites del problema examinado en el apartado anterior. 

Volvamos a examinar el problema general concerniente a la hipótesis 
H, = 1X€EP;,) frente a Ffh = (X€P,P x= P,] que hemos estudiado en 
ej 5 12. Puesto que la teoría de los criterios óptimos se ha desarrollado, 
en cierta medida, sólo en el caso paramétrico, es natural que se trate de 
“parametrizar” de algún modo este problema”. 

En el caso general, la manera más simple y natural de hacer esto es 
la agrupación de los datos, que consiste en lo siguiente. Bl campo de los 
valores posibles de las magnitudes sujetas a observación (o sea, el espacio 
27) se divide en r regiones disjuntas A, ..., Ar, y en vez de la observación 
xy sólo se indica el intervalo Ax donde esta observación ha ido a parar. 


” Se tiene en cuenta un parámetro de dimensión finita. Cualquier problema puede consi. 
derarse paramétrica si se admite un parámetro de dimensión infinita, ya que éste puede ser 
identificado con la distribución P, X € P. 
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Con otras palabras, reducimos la precisión de las observaciones, y los 
xy, Que cayeron en A4 pueden ser sustituidos por un solo valor zx € Ax. Claro 
está que eligiendo una división bastante completa, podemos aproximar la 
observación x;, mediante z, tan exactamente como se quiera. 

Así pues, la agrupación conduce a que la observación x, es sustituida 
por el vector ex si se ha producido el suceso Ax = [x,€ Ax] (los vectores 
ex han sido definidos al principio del apartado anterior). Pero la nueva 
muestra obtenida como resultado de tal operación, evidentemente, no es 
otra cosa sino la muestra de By, 0 = P(x, € Ax). Ya sabemos que en este 
caso, el vector p = (v,, ..., Yr) de frecuencias de caídas en los intervalos 
Ai, ..., Ar Será una estadística suficiente. 

La reducción realizada de la muestra .X al vector » es precisamente la 
llamada agrupación de los datos. 

Por supuesto que tal agrupación está relacionada con cierto “empobre- 
cimiento” de la muestra X y con una pérdida parcial de información. 

La parametrización realizada también puede ser considerada desde otro 
punto de vista. Supongamos, para evidenciar, que 2"= R y que todas las 
distribuciones que han de ser estudiadas, están concentradas en un interva- 
lo finito y tienen densidad, o sea, satisfacen la condición (4,), donde u 
es la medida de Lebesgue. Con la partición As, ..., A, establecida, examine- 
mos, a la par con la densidad f(x), la densidad constante a trozos 


fx) = e = + | Soddx = — para x€ A;. (13) 


A, 


Donde A, también designa la longitud del intervalo A,. Esta es la familia 
paramétrica de las distribuciones P», P.(B) = j fo dx. 
B 

La muestra Y de P+ podrá ser obtenida si para cada k recogemos todas 
las observaciones de X € P que han ido a parar a Az y luego las *“dispersa- 
mos” por Ax uniformemente y al azar. En realidad esto es lo mismo que 
hemos hecho antes, ya que los datos que indican en qué punto del intervalo 
A; se encuentra la observación y,, no contienen ninguna información acerca 
del parámetro 0: la función de verosimilitud fp( Y) no cambia después del 
“desplazamiento” de las observaciones dentro de los límites de sus interva- 
los. Por lo tanto, sólo es suficiente saber las cantidades v,, ..., w, de observa- 
ciones que fueron a parar a A,, ..., A. 

Está claro que si f(x) es una función suave, fo(x) aproximará bien f(x) 
siempre que la partición de (A;, ..., A-) sea bastante “menuda”. 

Las relaciones (13) significan otro método de parametrización, equiva- 
lente al primero. Tal equivalencia resulta de la coincidencia de las funciones 
de verosimilitud, con una exactitud de hasta un factor que no depende del 


27* 
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parámetro. Para la distribución (13), dicha equivalencia es igual a 


r r 
SAY) =11 8'I1 ar”, 
im ¡el 
donde el primer factor es la función de verosimilitud de la muestra de Bo 
(véase (4)). 

Cabe señalar que la agrupación de las observaciones a menudo también 
surge por sí misma no para fines de parametrización, sino simplemente 
como un método cómodo y económico de anotación de la información 
que contiene la muestra. Si, por ejemplo, 1 = 10* y la precisión de las medi- 
ciones de los valores observados en (0, 1] es comparable con 0,1, entonces 
claro está que prácticamente no merece la pena conocer todas la 10* obser- 
vaciones y es suficiente indicar 10 frecuencias vi, ..., Vio de caída en los 
intervalos A, = ((i — 1)/10, ¿/10), ¿=1, ..., 10, o sea, basta conocer tan 
sólo el histograma de la muestra. 

Volvamos al problema de verificación de la hipótesis H, = ([X € P,) 
frente a Hz = (X € P «P,). Supondremos que la referida agrupación de 
observaciones es tal que la desviación (importante para nosotros) de la dis- 
tribución P de la muestra X respecto a P, se reflejará obligatoriamente 
en las distribuciones de los datos agrupados. Entonces, nuestro problema 
se puede considerar como un problema de verificación de la hipótesis 
[9 = p)], donde p, = P:(A)), frente a [0 + p), para las familias paramétri- 
cas Bs o (13). Como ya sabemos, en este problema, el criterio x? (al igual 
que los criterios (7) y (12)) serd asintóticamente Óptimo desde el punto de 
vista enunciado en el teorema 1. 

Además, el criterio x? no es asintóticamente paraméftrico, ya que, para 
la hipótesis H,, la distribución límite de la estadística x*(X) no depende 
de la distribución inicial de la muestra X. 

En este caso cabe señalar que la verificación de la hipótesis [9 = p) 
para las familias (13) o Boy no es, a pesar de todo, equivalente a la verifica- 
ción de la hipótesis (X € P; j, aunque, con una partición abundante de 
[A1, ..., Ar], ella pueda ser próxima a esta última. En efecto, para la mues- 
tra X se verifica la hipótesis Y € P, P(A;) = p, = P1(4;). Esto contribuye 
a que el criterio x? sea inconciliable respecto a las alternativas P + P, para 
las cuales 0; = P(A,) = P¡(A;) = pi. Por eso indicaremos una vez más, Que 
el criterio x? es un criterio que posee una serie de propiedades de optimiza- 
ción asintótica, pero que actúa exclusivamente contra las alternativas que 
modifican el vector $, o sea, contra las alternativas para las cuales 
(P(4)3 x [P:(A4)) = [ pi). 

Hagamos algunas observaciones concernientes a las aplicaciones de los 
criterios x*, (7) y (12). En este caso hablaremos fundamentalmente tan sólo 
del criterio x?, ya que, por un lado, dichos criterios se asemejan unos a 
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otros y, por otro lado, el criterio x?* históricamente (en parte, debido a su 
evidencia) adquirió una aplicación mucho más amplia. 

El nivel de importancia del criterio x*(X) > h, €es igual a 1 — € única- 
mente en el “límite”. La experiencia muestra que para e > 0,01, el verdadero 
nivel de importancia de este criterio se aproxima satisfactoriamente, me- 
diante el valor de 1 — e, sólo cuando »rp>8,i=1, ..., ?. 

Si el número de grupos 7 es grande, digamos, cuando n > r > 30, se 
puede utilizar la aproximación normal tanto para la distribución 
a= Ok — rx € H, (véase el $ 2.2), comotambién, en caso de la hipó- 
tesis F,, para la distribución de la estadística x*(X) normalizada por los 
momentos 


Mx (X) a 1, 


DxUAX) = 2(r — 1) +2 (207 -r-2r+ 2). 
1 
Con frecuencia también se utiliza la aproximación normal do, , para dis- 
tribuir la variable aleatoria (véase el $ 2.2) V2x? — V2r — 1, x? € H,. 
También debemos señalar que al aumentar el número de grupos mejora 
la aproximación de la densidad f(x) mediante una función escalonada cons- 


truida según los valores de P,(A)) = y fOoOdx. Esto significa que aumenta 


el número de alternativas que no concuerdan con H,, y que el criterio x? 
se transforma cada vez más en criterio de verificación de las hipótesis acerca 
de la densidad. De acuerdo con esto, al aumentar el número de grupos, 
la potencia de los criterios x? de nivel registrado disminuirá (compárese 
con las observaciones del párrafo anterior acerca del criterio de Morán. 
Esto se analiza más detalladamente en (12] y (21])). 

Como defecto del criterio x? debe considerarse el hecho de que en una 
serie de casos de partición (4, ..., A,) hay que establecer la estadística. 
Aquí es necesario tener cuidado, ya que en este caso se introduce un elemen- 
to de subjetivismo en el “empobrecimiento” de la muestra YX. Además, a 
veces esta partición se elige en función de la muestra X, lo cual, hablando 
en general, no siempre es admisible, ya que, a su vez, A; se vuelven aleatorias 
(esto se examina más detalladamente en [49], p. $75). 

Ejemplo 1” En la ciudad N, un individuo observó las indicaciones de 
500 relojes expuestos en las vitrinas de distintas relojerías. Los resultados 
de las observaciones fueron divididos en 12 grupos (conforme a la posición 
del horario en la esfera). He aquí la tabla de las observaciones obtenidas: 


Este ejemplo se ha tomado de [25]. 
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Se verifica una hipótesis simple: 4, = (/a distribución de la posición 
del horario en la esfera según los grupos de horas es uniforme) frente a 
la alternativa adicional compuesta. 

En este ejemplo, rn = 500, p, = 1/12, ¡= 1, ..., 12, np; = 41,67. A base 
del teorema | podemos considerar que x*(X) € H,, aproximadamente. Sin 
embargo, en nuestro ejemplo, mediante el cálculo directo nos convencemos 
de que x*(X) = 10, y el nivel realmente alcanzado del criterio x? es aproxi- 
madamente igual a 1 — H,1((10, c0)) = 0,47 (véase la tabla III). Esto signi- 
fica que los resultados del experimento concuerdan con la hipótesis A, 
desde el punto de vista del criterio x? de cualquier nivel 1 — e situado entre 
0,47 y 1. 

Ya hemos señalado que el criterio x? está muy difundido. Además, la 
esfera de su aplicación consiste no sólo en verificar las hipótesis simples. 
Uno de tales ejemplos será examinado en el párrafo siguiente. 


Intervalos en 
la esfera 


Número de 
observaciones 


$ 17. Verificación de las hipótesis de pertenencia 
de la muestra a una familia paramétrica 


Examinemos el problema de verificación de la hipótesis compuesta HA, = 
= (X€EP,, € 4) de que la distribución de la muestra pertenece a la 
familia paramétrica (PaJaea frente a la alternativa adicional HH = 
= (X€EP,P ¿(P.)acs). Como ejemplo de tal género de hipótesis puede 
servir la afirmación de que X' es la muestra de cualquier población normal 
(hipótesis 47,), así como la afirmación adicional a la mencionada (hipótesis 
H»). 

Como un segundo ejemplo puede servir la verificación de la hipótesis 
de que X € Bs(), donde la dimensión de o: es menor que la de 0. Este 
problema también puede ser interpretado como el problema de verificación 
de la hipótesis de pertenencia de X a una subfamilia paramétrica (véase 
el 5 15). No obstante, la primera interpretación también será cierta, puesto 
que en el caso en que como resultado del experimento sólo acontezca un 
número finito de sucesos posibles (véase la definición de Ba en el $ 2.2), 
la familia Bo comprenderá todas las distribuciones posibles de la muestra. 

En el apartado siguiente examinaremos el problema de verificación de 
la hipótesis X € Ba(a) y mostraremos que el problema general de pertenen- 
cia a la familia paramétrica puede ser reducido al primer problema median- 
te la agrupación de los datos. 
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1. Verificación de la hipótesis X € Bo.). Agrupación de los datos. Exa- 
minemos primeramente el problema general enunciado al principio del 
párrafo y destinado al espacio arbitrario 2 Dividamos el espacio Zen re- 
giones (“intervalos”) (A, ..., Ar] de tal modo que el número de “intefva- 
los” r sea mayor que / + 1, donde / es la dimensión del parámetro a. 
Realicemos la agrupación de las observaciones en estos intervalos. Si la 
hipótesis A, = ([X € P.) es cierta, las probabilidades de que las observa- 
ciones caigan en los intervalos A, serán iguales a 


pila) = PolA;). 
Esto significa que en este caso el vector 0 = (9,, ..., 0,) de las probabilidades 
de que las observaciones caigan en A; debe situarse en la curva 
0 = p(a) = (pi(a), ..., pAa)). 

Ahora bien, a base de la muestra Y € Boa obtenida en la agrupación, 
debemos verificar la hipótesis H, acerca de la pertenencia de Y a la subfami- 
lia paramétrica Bora) frente a la alternativa [ Y € Bs), donde 0 no se sitúa 
en la curva 0 = p(a), a € A. Este problema fue examinado en el $ 15, donde 
hemos hallado el criterio asintóticamente minimax para verificar H, frente 
a la alternativa semejante 


H, = (Y € Bo, inf l0 — p(aw + yn” *2P pla + yn” “*Y| > bn7 1?) 

” (1) 

(veáse la aclaración 15.3 al teorema 15.4. El punto «av significa el valor "Joca- 

lizado” del parámetro, tal que las alternativas se disponen en el entorno 

del punto 9. = p(ao)). En nuestro caso, el criterio de la relación de verosimi- 
litud (15.11) tiene la forma 
+ 


In RM = máx $, »¡ nó; — máx Y vs ln pia) > h,/2, 
(1 a 


o bien, que es lo mismo, 
y 


In—Y%-_>h/72, 
yA Y np(á”) g 


21 


donde á” es la ev.m. del parámetro a: según la muestra Y o según el vector 
» = (1, ..., Vr)). Este criterio equivale asintóticamente (véase el teorema 
15.4) al criterio 


(Pp) - vn” DIR DW") - v?y > h,. 
Como la forma de la matriz 7(0) es conocida (véase (16.5), entonces, 
utilizando (16.9), del teorema 15.4 obtenemos el 
Corolario 1. Si r — 1 >! y la función p(a) satisface las condiciones 
del teorema 15.4, entonces el criterio de la relación de verosimilitud de nivel 
asintótico 1 — e para verificar, basándose en los datos agrupados, la hipóte- 
sis H, = ([X€6 Po, Pa € [PaJaca) frente a la alternativa adicional Ha, es 
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asintóticamente mihimax (para verificar la hipótesis Fl, frente a (1)) y tiene 
la forma 


ln —_ >h72, 2 
jr n npiáa”) £ 2 (2) 


donde h, es una cuantila del orden de 1 — € de la distribución x? con 
r—lI-— 1 grados de libertad. Este criterio equivale asintdticamente al 


criterio 
a? (vi —_ app) >h 3 
200 Y] CA > a, 0) 


Este último criterio también se llama criterio x?, pero en caso de que 
los parámetros “obstaculizadores” desconocidos se estimen con arreglo a 
la muestra. Como se deduce del corolario 1, la distribución de la estadística 
x?(X) converge, siempre que se trate de la hipótesis H,, a la distribución 
x? con r — [— 1 grados de libertad (el número de grados de libertad r — 1 
en la distribución límite de la estadística x?(X) ha disminuido en el número 
de parámetros escalares a, ..., a que se estiman por la muestra). 

Ejemplo 1. En el ejemplo 2.26.3 hemos descrito el mecanismo de heren- 
cia de los grupos de sangre O (cero), A, B y AB. Este mecanismo es controla- 
do por los genes de tres tipos A, B y 0. Las probabilidades de aparición 
de estos genes en una populación dada designémoslas por p, q, 
r = 1-— p - 4. Enel ejemplo 2.26.3 hemos hallado y en la tabla 1 del 5 26 
hemos escrito las probabilidades p,(a) de que una persona tenga el ¡-ésimo 
grupo de sangre. 

Disponemos de la muestra X con las frecuencias p;, [ = 1, 2, 3, 4 (véase 
la tabla 1) de aparición del ¡-ésimo grupo de sangre, obtenida como resulta- 
do del examen de n = 353 personas. En el ejemplo 2.26.3 hemos hallado, 
para esta muestra, los valores aproximados de la ev.m. 4” = (p", q”) = 
= (0,246, 0,173). Esto nos proporcionó los valores de pi(G”) expuestos en 
la tabla 1. 


Tabla 1. Distribución de las personas según los grupos de sangre 
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Hemos recibido la posibilidad de utilizar el corolario 1! para verificar 
la hipótesis acerca de que tiene lugar el mecanismo de herencia de la sangre, 
descrito anteriormente. Con ayuda de la tabla 1 hallamos que, en nuestro 
caso, la estadística 2*(X) (véase (3)) es igual a 0,44, aproximadamente. Esto 
concuerda bien con la hipótesis, ya que el valor crítico Á,, correspondiente 
a la distribución x* con un grado de libertad y al valor de e = 0,2, es igual 
a ho,2 == 1,64. 

Ejemplo 2. Problema acerca de los indicios conjugados. Supongamos 
que la muestra X' es el resultado de la investigación de ciertos objetos, cada 
uno de los cuales se caracteriza por dos indicios 4 y B. El primero puede 
adoptar los valores Aj, ..., As, y el segundo, B;,, ..., B;. Se pregunta, 
¿ serán esos indicios dependientes o no? Por ejemplo, podemos realizar 
cierto experimento G, obteniendo resultados Bi, ..., B, en condiciones Á,, 

.., As diferentes. El problema consiste en aclarar si dichos resultados depen- 
den o no de Jas condiciones en que se realiza el experimento. 

Este problema también puede considerarse como el problema de verifi- 
cación de la independencia de dos variables aleatorias £ y y según las obser- 
vaciones agrupadas en el par (¿, y). 

En nuestro ejemplo, los resultados de los experimentos son una matriz 
de valores |»;,|, donde »¡; es el número de aparición de resultados con indi- 
cios As y B; en la muestra X de volumen » (cada elemento de la muestra 
es un par de indicios del objeto que se examina). 


Designemos pj = P(A¡B)), pi. = y Puy, P.] = z Pu- 


Entonces, la hipótesis H, de indepéndendia de los indicios tendrá la forma 
Hi, = [Py = pi-p.;). No es difícil notar que ésta es la hipótesis de pertenen- 
cia de la distribución de la muestra a una familia paramétrica, donde el 
papel de parámetro a: lo desempeña el vector a = (Y;., ..., Ps=1., Pots ».. 


e.» Pr-1) de s + f — 2 dimensiones [ los valores de p,. y p., se deducen 
s-1 ft=] 

de las igualdades p,. =1- )) Pi. pe=1- )) py). 
¿=] Jm1 


La función de verosimilitud de la muestra X, siempre que se trate de 
la hipótesis H,, es igual a 


t s 
OA » ell 91». 2». Y »wrx= Y »u- 
1) i J Ju NN 
De los resultados del $ 16 (compárense con los del apartado (16.1)) se deduce 


que la ev.m. a” para tal función de verosimilitud tiene la forma 


Pi. = vi./N, P. = vj/n. 
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Así pues, en nuestro casa, el criterio x? adquiere la forma 


22 (Yy — npi. PY _ Oy — nr. 
wo = dr TS ABBY Zo Vi.V.j ds 


donde h, es una cuantila del orden de 1 — e de la distribución x* con un 
número de grados de libertad de sí — 1 — (s + t — 2) = (s -— DG - 1. 

Se pueden señalar muchos problemas aplicados, donde se utiliza el crite- 
rio de conjugación de los indicios que hemos construido. A título de ejem- 
plo examinarenos uno de ellos: el problema de investigación sociológica 
de la relación entre los ingresos de las familias y la cantidad de niños en 
ellas (véase [25], p. 481). 

Ejemplo 2A. Supongamos que el indicio A significa la cantidad de 
niños y adopta los valores 0, 1, 2, 3, > 4. El indicio B indica a qué intervalo 
(0 — YN, (1 — 2), Q-— 3), (>3) (por unidad se han adoptado 1000 coronas 
suecas) pertenece el salario. Según los resultados de n = 25 263 investiga- 
ciones se han obtenido los datos expuestos en la tabla 2. 


Tabla 2 


En este ejemplo, x*(X) = 568,5, lo cual supera en mucho el valor crítico 
de h, para la distribución x? de (5 - 1)(4 — 1) = 12 grados de libertad, 
incluso con valores de e bastante pequeños. Así que debemos reconocer 
la inconciliabilidad de la hipótesis Af, = [A y B son independientes (incon- 
Jugados)). 

No obstante, debemos señalar que un análisis más minucioso ha demos- 
trado la existencia de una dependencia muy débil entre los indicios A y B. 

2. Caso general. El criterio x? aplicado al problema de este párrafo 
posee los mismos defectos que los indicados con arreglo a los problemas 
del párrafo anterior. 

El problema de verificación de la hipótesis ( X € Pa) acerca de la perte- 
nencia de X a la familia paramétrica (Po)oco también admite, por supues- 
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to, un enfoque más amplio, análogo al expuesto en el $ 12. Elijamos cierta 
distancia d(P, O) en el espacio de distribuciones. Luego, hallemos el punto 
P, de (Po), inmediato a Px desde el punto de vista de la distancia d. En 
calidad de P,. también se puede tomar Pf», donde Ú” es la e.v.m. (véase 
el $ 2.5) o cualquier otra estimación razonable. Si la hipótesis A, es cierta, 
entonces d(P,., Pa) no debe ser grande y, al contrario, si es cierta Hz, en- 
tonces d(P,., Ps) será considerable. Esta consideración nos ofrece la si- 
guiente estructura del criterio: rechazaremos la hipótesis HH, si 
d(P y, Pa) > c, y la aceptaremos en el caso contrario. 
El número c debe elegirse de modo que 


sup Pold(P,., Pa) > 0) < 8, 


o de modo que esta relación se cumpla asintóticamente, El corolario 1 pro- 
pone que en calidad de distancia d(P,., Pa) se adopten las estadísticas en 
(2) y (3). Entre otras, estas últimas también poseen la ventaja de que asintó- 
ticamente no son paramétricas: en el caso de la hipótesis HH, = [X € Ps), 
la distribución límite x*(X) no depende, por ejemplo, de 6, 

Examinemos la realización del enfoque general expuesto anteriormente en dos casos parti- 
cutares importantes, cuando las familias paramétricas están formadas por parámetros de 
desplazamiento y de escala. 

1) Supongamos que se verifica la hipótesis X € Pa, 9€ R, donde Px(A) = P(A - 9), 
A CR. Designemos por F(x) la función de distribución correspondiente a P y pongamos 


FEv(x) = F(x — 0). En calidad de d adoptaremos la distancia que hemos utilizado en el criterio 
de KoJmogórov. 


Teorema 1. Supongamos que X E Pa, Fo(x) = F(x — 0) y que la función F(x) tiene una 
densidad uniformemente continua limitada igual a Ax) = F'(x), j foodx < vo, Si desig- 
namos | Moax = 4,0” = X — a, entonces, cualquier 0 
lim Polsup VA] Fxtx) — Fay (01 > 0) = P(sup [w"F(x)) + J00 | w*"AOI| > <, 


» um Xx x 
donde w” es el puente browniano estándar. 

En esta relación, el segundo miembro no depende de 9. Calculándolo para un valor dado 
de F y escogiendo c = c, de modo que sea igual a e, obtenemos el criterio 


D, us sup Vn|Fa(x) — F(x — 60] ><, 
xXx 
de nivel asintótico 1 — € para verificar la hipótesis MH, de pertenencia de la muestra X a la 


famila paramétrica (Po), donde 0 es el parámetro de desplazamiento. 
Demostración del teorema 1. Examinemos el proceso 


Wikx) = Vn(Fa(x) — Fa (0) = wn(x) — VA(FyAx) — Fax), 
donde wx(x) = Vn(Fi(x) — Fe(x). Para 1 — 0 tenemos 
FAx) — Fax) = —(1 — Ox — 0) + ett, 9, x)), 
(ele, 0, x)] £ jp. py 


donde wa es el módulo de continuidad de la función f, el cual no depende de x, wa > 0 
cuando A > 0. Como q $, entonces, poniendo + = 9” y adoptando, sin limitar la generali- 
0 
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dad, a = 0, obtenemos 
VEGA) — Fe SU — 0) | CdVA(EAO — Fo(o)) + lO", 6, x) = 
= —fx — 0) | sake) + el6”, 6, x), 
Je(0”, O, x)] € «(0 — 0) m Vn]0” — Olaya - gy 77 0. 


Seguidamente, la funcional 
N 
Hiswa) == sup Imn(x) — fc 0) | wide, 
=N 
para cuakuier N > O, es continua en la métrica uniforme. La sustitución de la variable x 
por Fi (y) = 9 + F7 0, cuya ejecución natural para la aplicación del teorema 1.6.3, no 
modifica este hecho. Por eso, en virtud del teorema mencionado, 
N 
Hn(Wn) => sup w"(F(x) — 0)) + fx — 0) Í w FU - ona | . 


-N 
Para demostrar la relación requerida, 
Da = sup | w*(Plx — 0)) + fix — 0) j w"(F(t — 0)dt| 


(el desplazamiento en 0 del argumento en el segundo miembro no modifica el valor de este 
último) y, en virtud de las relaciones 


[Da — Hu(w) € M8” - O +c< | ven(£)di (4) 
Ma3N 


w(0" — Y 0, 


sólo queda convencernos que la integral en (4), juntamente con la integral ¡ wo(EF(0di 
lia N 

(pongamos, para abreviar, 9 « 0), convergen, de modo probable, a cero cuando n — oo, 
N —= «o, Por lo visto, el método más simple de estimar ambas integrales consiste en demostrar 
la pequeñez de sus dispersiones utilizando la desigualdad de Chébishev. En vista de que los 
primeros dos momentos de las expresiones subintegrales en ambas integrales se comportan 
del mismo modo, podemos limitarnos a estimar tan sólo una de estas últimas. Examinemos, 
por ejemplo, 

—N 

j w"(FUYNdt. 


En virtud de las relaciones Mw*(s)wu) = mín (s, 4) + su £ 2 min (s, 4) cuandos € | 
yu £ 1, tenemos z 


-N 2 -N =N 
m( ¡ wroya) € 2 ¡ | mín (F(t), Fis)dids = 


-N -N 
= 4 í (1 -— NiF0d1 < —-8 | iF(0 dt 0 


cuando N — co, ya que í r? dF(t) < «o, Andlogamente se examinan los demás intervalos. < 
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2) Supongamos que ahora se verifica la hipótesis X E Pe, 0ER, 06 > 0, donde 
PLA) = P(4/0), A C R. Volvamos a designar por F la función de distribución correspon- 
diente a P, y pongamos 


7 = Mii | arco, ga. 


Teorema 2. Supongamos que X E Po, FAx) = F(x/0) y que existe una densidad contt- 
nmua limitada fx) = F'*(0) tal, que 


sup Lay] < e, | Naddx < w. (5 


Entonces, para cualquier 0, 
tim Po(sup Val Enix) - F(x/0] > c) = 
ne Xx 


=P (ss ¡WEO) + x100) j tw F(0)dt] e) j, 


La demostración de este teorema es absolutamente análoga a la del teorema 1. Tenemos 
W,(x) m VA(FMx) — F(x/0")) = wa(x) — Vn(F(x/0") — F(x/0), 
wa(x) = vn(Fi(x) — F(x/0)). 


Fo) - Fado) = 6 -5) - (5) + e(t, 0, x), 


donde, en virtud de la relación f(x) < c/|x] y de la continuidad uniforme de f en cualquier 
intervalo finito, se cumple sup je(t, 6, x)| < Wu-q 7” 0. Poniendo t = 0” > 0, obtenemos 
x 7] 


(0) 
A) ) A) 


donde sup del segundo sumando converge a cero respecto a la P+-probabilidad. Sólo nos 
Xx 


Cuando 1 > 8 


queda utilizar los razonamientos del teorema anterior (la pequeñez de las integrales 
| tw U(FíDatl y | twa(()dt es asegurada por la condición (5)) y señalar que la parte 

HN H>N 

principal Wa(x) es igual a (adoptemos, sin limitar la generalidad, o? = 1) 


vn x(9” — 6?) E a x/0 3 as 
Wa(x) — rr 100 wa(x) 0 +07 pe awa(t) 


- _ A/A 
ma(x) ET OD ) twa(t)ds, 
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mate (0) ms) Ib ())- 
=(e(3)) (3) [erroa 


Convo la transformación de la contracción respecto a x debajo del signo sup no modifica 
x 


sup | Wa(x)| = sup 
Xx Xx 


Xx 


nada, el teorema 2 queda dernostrado. 
El lector también puede Obtener resultados análogos para las estadísticas | (FaQo) — 
— Fax ñix). 


5 18. Estabilidad de las decisiones estadísticas 


Al construir distintos procedimientos estadísticos en los párrafos anteriores 
— en los problemas de estimación o de verificación de las hipótesis — cada 
vez partíamos de cierto conjunto de condiciones. Estas últimas se referían, 
en particular, a la independencia de las observaciones y a su igual distribu- 
ción, así como a las suposiciones acerca del carácter de distribución P de 
los elementos de una muestra. El incumplimiento de tales condiciones signi- 
ficaría que las afirmaciones respectivas (por ejemplo, acerca del carácter 
de distribución límite o acerca de la optimización de una u otra estadística) 
son, hablando en general, inciertas. 

Por otro lado, en la práctica, las referidas condiciones son, como regla, 
el resultado de la aproximación y la idealización inevitable. Por consiguien- 
te, dichas condiciones suelen no cumplirse de manera exacta y surgen dudas 
acerca de la validez de las recomendaciones basadas en uno u otro procedi- 
miento estadístico elegido. 

Por lo tanto, al igual que en cualquier otra rama de las matemáticas, 
referente a las aplicaciones, aquí es necesario (en la última etapa, antes 
de aplicar los métodos elaborados) aclarar cuán grandes deben ser las diver- 
gencias de las condiciones adoptadas, para que este hecho nos obligue a 
modificar las conclusiones enunciadas. 

Desde el punto de vista matemático, tal procedimiento constituye un 
problema muy parecido al problema de la estabilidad. En los libros editados 
en inglés, para este tipo de problemas se ha adoptado el término “robust- 
ness”*”, Por eso en los manuales editados en ruso, a la par con el término 
“estabilidad'” también se utiliza la palabra “robusticidad”. 

Las divergencias más difundidas de las condiciones antes mencionadas 
consisten en lo siguiente. 


Robustez o robusticidad. 
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1) En la serie de observaciones X' está presente una pequeña porción 
de “desechos”, o sea, de observaciones provocadas por graves errores de 
medición o de registro, o engendradas por cualquier otro mecanismo *obs- 
taculizador”, distinto del sistema sujeto a investigación. Por lo general, la 
separación de dichas observaciones es imposible. En vez de esto se buscan 
procedimientos que sean poco sensibles a tal “ensuciamiento” de la 
muestra. 

2) La distribución de x, no equivale con exactitud a P, sino que tan 
sólo aproximadamente. 

3) Los elementos de la muestra X no son independientes, sino que tan 
sólo débilmente dependientes. 

La tarea consiste en construir las reglas resolutivas para los problemas 
principales de la estadística matemática, que sean semejantes, por su efica- 
cia, a las reglas óptimas y que al mismo tiempo sean insensibles a las refesi- 
das divergencias de las condiciones adoptadas o, al menos, a aquellas de 
ellas que para nosotros no tienen importancia. Esta tarea, dificilísima y 
no siempre planteada con exactitud, aún no está estudiada del todo. Aquí 
los resultados tienen un carácter muy heterogéneo. Por eso sólo nos de- 
tendremos en algunos ejemplos típicos. 

1. Estimación de la medía para las distribuciones simétricas. Suponga- 
mos que X € P y que la distribución en la recta P tiene una densidad de 
J(( — a) respecto a la medida de Lebesgue, f(1) = f(— £). Examinemos las 
dos estimaciones siguientes del parámetro a« = Mx1. Una de ellas es 


a” =X, 
y la otra, a””, que se basa en las cuantilas muestrales: 
r-1 
._ 1 e 
É “q 25 0) 


donde 0 < p < 1, = 1/p es un número entero. Cuando p = 1/2, la estima- 
ción a:”” se transforma en la mediana muestral $* = +2. 
Limitémonos por ahora al caso de p = 1/2. Cuando n -—» co tenemos 


(a -ajin Ed 0t= | Pfat. (2) 


Además, en el corolario 2.2.1 hemos establecido que para n -» co 


(a -a nata d= OS ] (3) 


Analizando la demostración de este corolario es fácil establecer que jun- 
to con a” == Xiga)» Ko = [(n + 1)/2], esa misma distribución límite se 
observará en el término de la seric variacional x(*, para cualquier valor 
registrado de la diferencia k — ko. 
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De aquí se deduce que la estimación «** = 7” es insensible (desde el 
punto de vista de sus propiedades asintóticas) al hecho de que a la muestra 
X se agregue cualquier número finito de *“desechos”'. En efecto, si tenemos 
l “desechos” cualesquiera en la muestra X, entonces a”*” se situará entre 
los valores Yan € Yi)» donde k, =ko0-— l Ki=Xk0+1/€e ya), k =1, ... 
...» 1 — I forman la serie variacional de la muestra Y € P de volumen n - |. 
Pero las propiedades asintóticas de y, , € Y(4,) SON iguales y coinciden con 
las de la mediana muestral. . 

Así pues, cualesquiera que sean los “desechos”, la estimación «”” será 
insensible a ellos. Eso no se puede decir de la estimación a” = X, donde 
los referidos desechos pueden influir considerablemente (por ejemplo, si 
son comparables, en cuanto a su magnitud, con »”). Es fácil comprender 
que la propiedad de estabilidad de a*” también se conservará para pequeñas 
muestras, si el número de desechos / es pequeño respecto a ». Asimismo 
esta propiedad se conservará en el caso en que en vez de f” se utilice una 
estadística (1) de una forma más general. 

Por otro lado, para un caso particular importante, cuando P = $, .,, 
hay una ley normal: el valor de 03 = 041/2490) = (o, V2x)”!) excede la 
dispersión ví de la estimación eficiente a" = x solamente »/2 veces. Esta 
diferencia entre la eficacia de a*” y q” puede disminuir aún más si las esti- 
maciones (1) se examinan cuando r = 3, 4, etc. Entonces obtendremos una 
estimación a”” casi tan eficiente como x (al carecer de desechos) y al mismo 
tiempo estable respecto a los desechos. Además de (1) se puede tomar la 
media truncada 


5- Rp 

.. 1 

Q "AZ 2mp y XD» (4) 
kanp+i 


cuya dispersión también se aproxima con pequefios valores de p) a la disper- 
sión oí de la estimación a”. 

Señalemos a continuación, que las propiedades de la estimación a” = Xx 
dependen poco de las variaciones de P, que conservan la varianza 
oi = [ ¿2A(Dd! y, en particular, de las variaciones locales de /(t) en el punto 
? = 0. En este sentido dicha estimación es estable. Pero su propiedad de 
optimización, que tiene lugar para P = 9..,¿» €s inestable. En efecto, su- 
pongamos que para un valor pequeño de e > O, 

PS (dt + e0U, er 
Entonces f(0) = (1 — e)/V2x + 1/2 > 1/2 y, como muestran las relaciones 
(2) y (3), la estimación a*” = ¿* será mucho mejor (el valor de e debe ser 


pequeño, pero no menor de (1/va)). 
Por otro lado, la estimación «a”* = 7” es estable (se tiene en cuenta 
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su distribución) respecto a las variaciones de P que no afecten el valor de 
FO). 

Las observaciones expuestas también pueden enunciarse de otro modo: 
con arreglo a los criterios estadísticos, por ejemplo, a los c.u.m.p. no despla- 
zados |x — «rp| > c para verificar, a partir de la muestra X € %..1, la hipó- 
tesis HF; = [a = wo) frente a Hz = [ja — xo] > d > 0). 

2. Estadística de Student y Sí. Examinemos ahora la cuestión concer- 
niente a la estabilidad de los procedimientos estadísticos (estimación y veri- 
ficación de las hipótesis) relacionados con las estadísticas 


= Xx. 


- GE aja 2 
So si lw1 


Como sabemos (véase los $$ 3.7 y 3.8), en estas estadísticas se basan 
los criterios óptimos para verificar, correspondientemente, las hipótesis res- 
pecto a la media «a y a la varianza o? de las poblaciones normales en el 
caso cuando se desconoce el segundo parámetro (a? o a) de la distribución 
E 
Las estadísticas £ y Sá se comportan de manera diferente con arreglo 
a las alteraciones de las condiciones X G *, ,:- Supongamos que n es 
grande y YX € P, donde P es cualquier distribución, con « media y con 
varianza finita. Entonces, la distribución f, al igual que en el caso 
X€E $, ,: se aproximará a la distribución normal $o,,. Esto se deduce 
de los teoremas de continuidad ($ 1.5) y del hecho de que 


(x - a) Vn/VDx xy E do, S$>3 D.. 


Lo dicho significa que la dimensión del criterio de Student se diferen- 
ciará poco, para grandes valores de », de la dimensión dada, si incluso 
la distribución P de la muestra X se diferencia considerablemente de la 
distribución normal. 

Esto no se puede decir con arreglo a los criterios construidos a base 
de la estadística S$. Esta circunstancia se debe al hecho de que la distribu- 
ción límite Sá depende del valor Mx?. En efecto, de las consideraciones 
del capítulo 1 resulta 


(Só — o3)Vn € Ey 2, d? = MG — 0%)? = Dxí. 


Por consiguiente, la dimensión del criterio construido a base de la estadísti- 
ca Sí para una población normal puede diferenciarse considerablemente 
de la dimensión dada, si X € P y P se diferencian de + ao? (Pero si coinci- 
den los cuartos momentos de P y +, ,,, entonces no habrá diferencia). 
Ambas estadísticas £ y Sé son sensibles al rechazamiento de la suposi- 
ción acerca de la independencia de las observaciones en la muestra X. Si, 
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por ejemplo, todas las observaciones en la muestra están relacionadas unas 


con otras, y el coeficiente de correlación es igual a q, entonces, adoptando 
a =0 sin limitar la generalidad, obtenemos 


Msi= 2 m [330-100 5 


SL [no 7 M (2x)7 a 


iel 


> 27 Iné? - 1 — e) - note] = 4-0) 

Ahora bien, aquí se altera incluso la propiedad de no desplazamiento 
de Sí, aunque para pequeños valores de e la divergencia será pequeña. 
El establecimiento de las distribuciones de ? y Sí suele chocar con grandes 
dificultades al aparecer cierta dependencia. 

3. Criterio de relación de verosimilitud. Este criterio suele ser muy sen- 
sible a la existencia de desechos e incluso de pequeñas divergencias en las 
suposiciones acerca de la distribución de X. Supongamos, por ejemplo, que 
se verifican dos hipótesis simples H, = [X € %0,1) y 42 = ([X € U-. 1.1). 
Está claro que, al utilizar el criterio más potente de Neyman — Pearson, 
la aparición incluso de una sola observación x fuera del segmento [-—|, 
1], siempre que las demás observaciones correspondan idealmente a la 
distribución U- ;,,, nos obligará (¡con una probabilidad nula de equivoca- 
ción!) a reconocer la hipótesis H,. Esto significa que la presencia de un 
solo desecho o la aparición incluso de pequeñas divergencias de la distribu- 
ción U-., , pueden obligarnos a tomar una decisión falsa. 

En este sentido, el criterio de Kolmogórov es, por ejemplo, mucho más 
estable (aunque también menos potente respecto a Hz). En general, los cri- 
terios no paramétricos, como era de esperar, son mucho más estables que 
los criterios “individuales” dotados de propiedades de optimización en uno 
u otro problema concreto. 

En cuanto al referido problema de verificación de la normalidad (H) 
frente a la uniformidad (A) de la muestra X, el establecimiento de criterios 
potentes y al mismo tiempo estables respecto a los desechos, se puede reali- 
zar utilizando, como antes, la relación de verosimilitud, pero para muestras 
“truncadas” (compárese con (4)). También se puede ir por la vía de elección 
de otro criterio cualquiera. En este sentido, la existencia de una reserva 
bastante grande de criterios y estimaciones diferentes es muy útil. A esto 
a menudo se acude no sólo por razones de estabilidad, sino también por 
cuestiones de comodidad de los cálculos. 


CAPÍTULO 4 


Problemas estadísticos de dos muestras y más 


En los $$ 1 y 2 se examinan los problemas de homogeneidad de dos 
muestras. 

En el $ 3 se estudian los problemas de regresión. 

En el $ 4 se exponen los resultados del análisis de varianza. 

En el $ $ se examinan los problemas de reconocimiento de las imágenes. 


$ 1. Verificación de las hipótesis de homogeneidad 
(completa o parcial) en el caso paramétrico 


1. Clase de problemas a examinar. En los capítulos anteriores, el objeto 
de todos los estudios ha sido la muestra X de volumen » de una distribución 
P total o parcialmente desconocida. Ahora pasamos al estudio de los 
problemas estadísticos donde figura no una, sino dos muestras y más. 

Una de las clases principales de problemas que se examinan en este 
caso son los problemas de verificación de la homogeneidad (completa o 
parcial) de dos muestras. 

Aquí entran los tres siguientes tipos principales de problemas: 

Il. Verificación de la homogeneidad “ordinaria”. Aquí el problema con- 
siste en verificar la hipótesis de que dos muestras X e Y se han extraído 
de una misma distribución desconocida. Tales problemas surgen, por 
ejemplo, al comparar dos métodos de elaboración en cualquier proceso tec- 
nológico o en la agricultura. Como base de comparación suelen servir las 
características numéricas del producto final (de la muestra), que son de 
naturaleza aleatoria. Problemas de este mismo género surgirán si por el 
estado de salud de los enfermos verificamos el efecto de una nueva medici- 
na, comparando el grupo experimental de pacientes con el grupo de 
control. 

Entre los problemas de homogeneidad figura el ejemplo dado en la 
introducción. 
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En este párrafo examinaremos el caso paramétrico. Supongamos que 
se da una familia de distribuciones (Ps )y¿g Y que hay dos muestras inde- 
pendientes X = (Xi, ..., Xn,) € Y = (y1, ..., Yn,) de volúmenes n; y Az, res- 
pectivamente, con la particularidad de que se sabe de antemano que estas 
muestras pertenecen a la familía (P+): 


X € Pa, Y 3 Po, (1) 


para ciertos 0, y 02. El problema ordinario de homogeneidad aquí consiste 
en verificar la hipótesis A, = (0, = 62) frente a la alternativa adicional 
HI, = (01 Xx 02). Es evidente que aquí ambas hipótesis H, y H2 son com- 
puestas. 

11. Verificación de la homogeneidad al existir un parámetro obstaculiza- 
dor. Aquí se supone que la dimensión k dej parámetro 6 es mayor que 
1. Escribamos el vector 6 en forma de la colección 6 = (u, v) de dos subvec- 
tores U y uv y designemos por u, las componentes de los vectores 0; en (1), 
j= 1,2. 

Supongamos que sabemos de antemano que en ambas muestras, “el 
subparámetro”, a pesar de ser desconocido, es común: vu; = vz = v. Se veri- 
fica la hipótesis H, = (uz = 42) frente a Ha = (us x uz). í 

Este es precisamente un problema de homogeneidad cuando se dispone 
del parámetro obstaculizador v. El mismo se distingue de los problemas 
ordinarios de homogeneidad por el hecho de que la alternativa para la hipó- 
tesis H; = (6, = 02) tiene la forma FR = (ur 4 42, vi = v2). 

Se puede citar el siguiente ejemplo de surgimiento de tal tipo de proble- 
mas. Supongamos que nos interesa el estado de cierto objeto que se caracte- 
riza por el vector 4 que no puede ser medido directamente. Podemos 
efectuar tan sólo mediciones en las que sobre a se superpone un ruido ale- 
atorío cuya naturaleza, al efectuar diversas observaciones, permanece inva- 
riable Debemos verificar la hipótesis de invariabilidad de e en dos series 
de observaciones X e Y. 

Si, digamos, las mediciones tienen la forma x; = a, + £;, donde 
Es € P, ,, determinan el papel que desempeña el ruido, y las observaciones 
y: tienen ese mismo carácter al sustituir a, por az, entonces podemos escri- 
LIT XE Piro» Y E Part Hemos llegado al problema de verificación 
de la igualdad de las medias (e, = 22) de dos poblaciones normales 
Pu. Y P,,,/ para el valor desconocido común o?. 

111. Verificación de la homogeneidad parcial. Aquí solamente se verifica 
la hipótesis A, acerca de la coincidencia “parcial” de 0, y 92. Es decir, 
se comprueba la hipótesis H;, = ju, = u2) (con designaciones del apartado 
anterior) frente a Hz = (u, * u2z). Los valores de uv; y vz pueden ser propios 
para cada una de las muestras X e Y. 

Supongamos, por ejemplo, que en un laboratorio se estima el resultado 
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de la influencia que ejerce un nuevo método de cultivo sobre el rendimiento 
de cualquier cereal. Las observaciones representan cl peso total de los gra- 
nos en distintas espigas. Supongamos que x,€ E, ¿y ¿=1l,.., Mm para 
una partida experimental de espigas, e y, € $,, ¿ para la partida de 
control. Es natural admitir que la “dispersión” o? puede variar a consecuen- 
cia del cambio de cultivo. Pero para nosotros es importante saber si cambia 
o no el índice principal ae que determina el rendimiento del cerea!. Llegamos 
al problema de verificación de la hipótesis HH; = [01 = 2) frente a 
Hr = [a] 4 2) para poblaciones normales cuyas varianzas pueden ser di- 
ferentes. En la literatura, este problema es conocido con el nombre de 
problema de Behrens — Fisher”, 

En este párrafo reduciremos los problemas de todos los tres tipos, para 
las familias paramétricas arbitrarias, al problema examinado en el $ 3.15, 
de pertenencia de una muestra a una subfamilia paramétrica, y hallaremos 
una serie de criterios asintóticamente minimax, suponiendo la semejanza 
de las hipótesis sometidas a verificación. Serán los criterios de relación de 
verosimilitud que, para poblaciones normales, coincidirán con los criterios 
construidos al buscar una u otra optimización exacta (si tales existen; com- 
párese con [57]). 

El criterio estadístico x para verificar FH, frente a 2, en nuestro caso 
será la función r = r(X, Y) de dos muestras X e Y que, al igual que en 
la exposición anterior, designará la probabilidad de aceptación de H» para 
una muestra unida dada (X, Y) (véase el capítulo 3). Las definiciones del 
nivel asintótico y de la optimización asintótica del criterio r aquí son las 
mismas que en el $ 3.14. 

Definición 1. Diremos que el criterio w tiene un nivel asintótico 1 — € 
(pertenece a la clase K,), si 

o 
donde M,,,, significa la esperanza matemática respecto a la distribución 
Po, x Po,, y 91 es el conjunto de valores (6,, 62) con los que se cumple 


% Se han escrito muchos libros dedicados a la búsqueda de sus soluciones óptimas. Al 
estudio del problema de Behrens — Fisher, que resultó muy difícil, contribuyeron conside- 
rablemente Jas investigaciones de Yu, V. Línnik y sus alumnos. Dichas investigaciones re- 
quieren la introducción de nuevos conceptos y el uso de un aparato matemático muy complejo, 
Esto hace imposible la enunciación y demostración (en el marco de este manual) de los resulta- 
dos obtenidos. La situación acerca de los problemas de homogeneidad ordinaria y de homoge- 
neldad para poblaciones normales al existir ún parámetro obstaculizador, es algo mejor (en 
una serie de problemas se logra hallar los criterios invariantes no desplazados y uniformemente 
más potentes). No obstante, las construcciones indispensables para ello también resultan muy 
complicadas; este tema se examina más detalladamente en [57]. 
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la hipótesis H, (por ejemplo, el conjunto de todos los puntos (01, 02) si- 
tuados en la “bisectriz” 6, = 62 en el problema de homogeneidad or- 
dinaria). 

Definición 2. El criterio xr, € KR. se llama asintóticamente minimax en 
K, para verificar H, frente a Ha, si para cualquier criterio "EX, se 
cumple 

de nt, Map A D- (0, 26M, TA M) > 0, 
donde 0, es el conjunto de valores (6,, 02) correspondientes a las alternati- 
vas de Ha. 

2. Criterio asintóticamente minimax para verificar las hipótesis seme- 
jantes de homogeueldad ordinaria, Introduzcamos un nuevo parámetro 
9 = (01, 02) que caracterice la muestra “unida” (X, Y). La función de verosi- 
militud de la muestra es igual a £(X, Y) = fa (Os (Y). 

Supongamos primeramente, para abreviar, que los volúmenes de las 
muestras coinciden: 2, = 1 = n. Entonces, la muestra (X, Y) puede repre- 
sentarse como muestra de volumen n formada por las observaciones (x1, 
Y1), -.-» (Xn, yn) de la distribución P, = Po, X Po, que tiene la densidad 
fe.L0f0). Llegamos al problema examinado en el $ 3.15, de verificación, 
a base de la muestra (X, Y), de la hipótesis A, de que el parámetro Ó se 
sitúa en la “curva” 6, = 07. Teniendo en cuenta las designaciones de $ 3.15, 
en nuestro caso, la hipótesis H, tiene la forma 06 = g(o), donde 


a = 01, g(a) = (a, a). Es evidente que la matriz G = | se | =l, . 


» 2k,j=1, ..., k, tiene la forma ( E): donde £ es la matriz unidad 


de k-ésimo orden, así que el rango de G es igual a K. 

Consideraremos localizado el parámetro 0, o sea, consideraremos que 
los valores de 61 y 02 son semejantes y, por consiguiente, que los posibles 
valores de 0 se sitúan en el entorno del punto $. = (6o, 60) para cierto 00 
registrado. Si seguimos el $ 3.15, nos será más cómodo introducir un nuevo 
parámetro Tr =(r', 7%) = (y' ¿Vr */Vn) = y/Vn, donde 7” = 0, — 60, 
Tr” = 62 - 9, así que la aplicación O = 6(r) es biunívoca: 9, = 7” + 00, 
0, = 71” + 7” + 60. En los términos de los parámetros 7 y y, la hipótesis 
HF, de homogeneidad tomará la forma H, = [r” =0)] = (y” = 0). En ca- 
lidad de alternativa examinaremos la hipótesis “aislada” 


Hi =1r"Iy"T 2b*),b>0, (2) 
donde I = 1(00) es la matriz de Fisher para la familia (Ps) en el punto 60. 


Teorema 1. Supongamos que en el entorno del punto 0, la familla |Po) 
satisface las condiciones (RR) (véase el $ 2.28). Entonces, el criterio de rela- 
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ción de verosimilitud 


sup Je (Of) 23 
ES sup JAYAP) de 0) 


y el criterio asintóticamente minimax de nivel 1 — e para verificar 
= (01, = 02) frente a Há = ((0, — 02)1(01 — 027 > b*/n) para cual- 
la b > 0, donde h, es una cuantila de orden 1 — e de la distribu- 
ción x* de k grados “de libertad (para la hipótesis H,, la estadística 
2 In Ri¡(X, Y) tiene tal distribución límite). 
Supongamos que Úx, 0y, Ó' es la ev.m. del parámetro 0 = 0, = 0, res- 
pectivamente, según las muestras X, Y, (X, Y). Entonces, el criterio 


(Ó% — CIÓN — 97 + (Óy — Ó 96% — Y > h,/n (4) 
será asintóticamente equivalente al criterio (3). 


Demostración. La afirmación mencionada es el corolario directo del 
teorema 3,15.4. Sólo debemos aclarar qué representa la matriz de Fisher 
1(00) = 1(00, 00) para el parámetro “unido” 9 = (0,, 62), y la matriz M2 
para la familia paramétrica Pio,.0 de m) en el punto $ = O. Tenemos 


in fe, CIA) = H(x, 01) + 10, 02). 


Designemos por f1, ¿ = 1, ..., 2 las coordenadas del vector 6. En este caso, 
si por Mj se designa la esperanza matemática en la distribución P;, los 
elementos I4(0) de matriz 7(0) serán iguales a 


9NX1, 01) , 9My1, 02) lx, M0, 9lMyi, 02) 
O A A (A A) 


De aquí, en virtud de la independencia de x, e y,, obtenemos 


=—_ 1(01) 0 
1(0) = ( O 102) ) 
Por eso, el criterio (4) no es otra cosa sino el criterio (3.15.12) en el teorema 
3.15,4. 
Los cálculos análogos muestran que M2 = /(00), ya que para f = 
Ss B(B1, ..., Bx) = 0 
9Hx1, 00) as 9Hy1, 00 + 8) ES 9l(y1, 00) 
08; 98: ot, 


Observación 1. La afirmación del tcorema 1 se ha obtenido suponiendo 
que n, = nr. Sin embargo, esta limitación no tiene absolutamente impor- 
tancia. Examinemos, por ejemplo, el caso cuando n, — oo, n3 > «o, de mo- 
do que la relación n¡/n sea igual a un número racional r,/n (7, y ra son 


t=l, , K. <q 
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números enteros arbitrarios registrados, mn = nr, n — 00). Volvamos a 
introducir el nuevo parámetro 6 = (9,, 02) y examinemos la muestra unida 
(X, Y) como una muestra de volumen » con las observaciones (X;, ..., Xr,; 
Yilo o Ya) Or+t, .. Xin Ya +to >.» Y253), --- de la distribución 


Pj= Po Xx... x Po Xx Po Xx... Xx Po, 
Pi VOCES Pa VOO€S 


que depende del parámetro 6. La función de verosimilitud otra vez adquiri- 
rá la forma 


SIX, VO SMA. 


Si se introduce, como antes, el nuevo parámetro 7 = (7”, 7”) = (9, — Ob, 
02 — 01) y se pone 7 = y/Vn = (y'/vn, y'/vn), entonces, el problema some- 
tido a examen consiste en verificar PA=[y” =0] frente a 
H3 = (y"Ma2y** > b*), donde Ma es la matriz de Fisher para P, o, y 
en el punto $4 = 0, Es fácil ver que en nuestro caso M2 = r21(60), así que 
el conjunto de alternativas conserva su forma (2): 


HB <= (y"1y"*> b?/r?). 
La matriz de Fisher 1(0) tendrá la forma 


iaa 0 ) 
0 r21(97) /" 


Sólo queda utilizar el teorema 3.15.4. Entonces obtendremos la afirmación 
del teorema 1, en la que el criterio (4) ha de sustituirse por 


miéx — OO NÓZ —- 0 + 
+ n2(Óy — 0*)1(0" 10% — 0") > A,. (5) 


Con ayuda del teorema 3.15.4 también se puede señalar la potencia asin- 
tótica garantizada de los criterios (3) — (5). 

La afirmación del teorema también es válida en el caso general cuando 
Ri > 00, m2 > 0, n/m > c, donde c es un número arbitrario de (0, 1). No 
obstante, la demostración de este hecho exige consideraciones adicionales. 

Observación 2. La afirmación del teorema 1 también será válida si la 
hipótesis H, = (0, = 02) se sustituye por la hipótesis (véanse los capítulos 
precedentes) 


Hi = ((01 — 02)1(01 - 67 < a*/n), O<a< b. 


Observación 3. La forma de criterios asintóticamente minimax en el 
teorema 1 no depende de do. El valor de 9. sólo forma parte de la definición 
de la hipótesis H3 a través de J = 1(07) (véase (2), aunque también sería 
posible evitar la aparición de 0y sustituyendo / en (2) por /((9, + 02)/2). 
Esto nos proporcionaría la hipótesis 1 aliióucamente equivalente” a 
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A?,), para la cual se conserva por completo la afirmación del teorema 3. 
La aparición del valor 0 en (2) se debe a la utilización del método más 
simple de reducción del referido problema a los resultados del $ 3.15. 

Ejemplo 1. Supongamos que X e Y son muestras de volúmenes »1 y 
m de las distribuciones polinomiales X € Ba,, YE Bo,, 0¡€R*, 0, = 
= (011, ..., Óx), l = 1, 2. Los vectores de las frecuencias y = (V;, ..., Yx) 
y y = (41, ..., 4) de aparición de los sucesos Ay, ..., Ax (véase el $ 2.2) 
forman las estadísticas suficientes 


k k 
fi0s TL O, fa T1 8%. 


Las evm. tienen la forma Óx=v/m, Ór=ynm, 06s= 
= (y + p)/(n1 + m2). La matriz 1(0) está definida en (3.15.5), así que (veáse 


(3.16.9)) 
0)” = a da 


Así pues, en virtud del teorema 1 y de la observación 1, el criterio asintó- 
ticamente minimax de nivel asintótico 1 — e para verificar H, = (6, = 62) 
frente a 


k 
HB = ( Y (011 — 02*/001 > 07m | 
m1 


tiene la forma 
In Ri(X, Y) = 


a vi + Bi h 
¿Eo tto Dun Doremi pt de 


donde h, es una cuantila del orden de 1 — e de la distribución x? con 
k — 1 grados de libertad. De acuerdo con (4) y (5), será asintóticamente 
did el criterio 


2 
» + n + 
DN (- _ LA 
mn + 


y + 
¿mi j Si 


Ñ 2 
+ mD) A a mn + 
ña nm + y+qu 
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Ejemplo 1A. En el ejemplo 2,26.3 hemos descrito el mecanismo de he- 
rencia de los grupos de sangre designados por O (cero), A, B y AB. Dicho 
mecanismo es controlado por genes de tres tipos: A, B y 0. Las probabilida- 
des de que esos genes aparezcan en una población dada se designan por 
p,q,r =1-p- q, respectivamente. Las probabilidades pi(a), a = (p, q) 
de que una persona tenga el ¡-ésimo grupo de sangre se expresan a través 
de a según las fórmulas citadas en la tabla 1 del $ 2.26. 

Tenemos dos muestras X e Y con frecuencias »; y pi, 1 = 1, .., 4 de 
aparición del ¡-ésimo grupo sanguíneo, obtenidas a consecuencia del examen 
de mn, = 353 personas de la comunidad 7, de nm = 364 personas de la comu- 
nidad Jl. La distribución de las personas según los grupos sanguíneos se 
da en la tabla 1 


Tubla ] 


Comunidad ] 
Comunidad 1I 
Total 


Es necesario verificar la hipótesis de pertenencia de las comunidades 
examinadas a una población, o sea, la hipótesis de igualdad de las probabi- 
lidades p y q de estos grupos o, que es lo mismo, la hipótesis de igualdad 
de las probabilidades p,(«). Este es, evidentemente, el problema de homoge- 
neidad examinado en el ejemplo 1. 

Si se verifica la coincidencia de las probabilidades de los cuatro grupos 
de sangre, entonces, a la estadística (veánse los capítulos precedentes) 


ps 2 
dead (Sn 0. 
mn y] 


¡ + . 
fjwi ds Hi 


le corresponderá la distribución x? con tres grados de liSertad. En nuestro 
caso el valor xí constituye 11,74. El nivel realmente alcanzable (véase el 
$ 3.4) de la desviación obtenida pasa de 0,99. Esto significa que la hipótesis 
de homogeneidad ha de ser rechazada desde el punto de vista del criterio 
xi > hoos de nivel 0,99. 

Debemos señalar que el criterio aplicado no del todo corresponde a 
la naturaleza del fenómeno examinado, ya que debemos verificar la coinci- 
dencia de las probabilidades p y q y no la de las probabilidades p, de apari- 
ción de los grupos sanguíneos. Ateniéndose exactamente al teorema 1, 
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debemos, mediante los métodos descritos en el $ 2.26, calcular las ev.m. 
ax, ay y a” del parámetro a = (p, q) con arreglo a las muestras X, Y 
y (X, Y), respectivamente, y utilizar la estadística 


xi = 2[L(ax, X) + L(ay, Y) — Lía”, (X, Y) = 
4 4 4 7 
=2 | S y In pax) + p> pu In play) — A (91 + a) ln pai] 
a] m7 


que tiene, con grandes valores de nr, una distribución próxima a la distribu- 
ción x? con dos grados de libertad. Si realizamos todos los cálculos necesa- 
rios (véase el ejemplo 2.26.3), obtendremos x3 = 11,04, lo cual proporciona, 
para dos grados de libertad, una desviación mayor de 11,74 para tres grados 
de libertad. 

En cuanto a la verificación de la propia hipótesis de pertenencia de 
X e Y a las subfamilias paramétricas Bp(.), donde pla) = pila), ..., pela), 
véase el ejemplo 3.17.1. Ambas muestras concuerdan bien con esta hi- 
pótesis. 
Ejemplo 2. Sea XG Y, 4, Y E B,, ¿»donde los puntos 6, = (a, 0)) 


se sitúan en el entorno del punto 0 = (ao, 04). Aquí 
-2 
00 0 


Lu 
0 z0* 


2 


(véase el $ 2.16), y examinaremos el problema de verificación de la hipótesis 
H, = f0, = 62) frente a 
(01 — 02) (04-01? _ bp? e 
HR (EA n=n +0. 


1(00) = 


Tenemos Óx = (A, SÍ), Sk =-— Y) 0 —2Y, Su 00 = (Eresin, 
l 


du 
Las fórmulas análogas son válidas para la muestra Y. Seguidamente 


y Xx + Y y) 
0" = (2, Si, y) Z= 421 E = ax + (1 —- a), (7) 


m + 


ñ A 
A PO - zp pl. 
St, y rg [2,0 7 + 20 2y | 


= aSk = (1 — a)St + (1 — aja(í — y), 
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ce ( . 

donde a = m/(m + ma, f00f (1) = (Qresk y) 2" ””, Ahora bien, 

para verificar H, frente a A3, como criterio asintóticamente minimax utili- 

zaremos el criterio 


Sí, y 


donde A, es la cuantila de la distribución x* con dos grados de libertad. 
Le proponemos al lector que halle, en calidad de ejercicio, el criterio asintó- 
ticamente equivalente que tiene la forma (5). 

3, Criterios asintóticamente minimax para el problema de homoge- 
neidad al existir un parámetro obstaculizador. En éste y en los apartados 
posteriores supondremos, para abreviar, que los volúmenes de las muestras 
X e Y coinciden: n, = nz. Esta limitación no tiene importancia. En el caso 
de n,/t2 = r,/7 (r, y rz son enteros) el lector puede liberarse por sí mismo 
de esta limitación así como se hizo en la observación 1 del teorema 1. 

Así pues, supongamos que se dan dos muestras X E Pp, e YE Pa, 
0; = (us, vi), i = 1, 2, de volúmenes n, = ñ2 = n. Se verifica la hipótesis 
(u, «= uz) frente a (us, + us] suponiendo que conocemos uv) = vz = v y e. 
La dimensión u; se designa por /, /< k. 

Introduzcamos un nuevo parámetro 0 = (u,, 42, v). Representemos la 
muestra unida (X, Y) como una muestra de volumen » con observaciones 
(1, Yi) .... (An, yn) cuya densidad de distribución es igual a fi(x, y) = 
= Lu,, on sw, 0). Para esta familia paramétrica, el problema sometido 
a investigación equivale al problema de verificación de la hipótesis F,, que 
consiste en el hecho de que el valor de 6 se encuentra en la “curva” 
0 = (01) = (us, ur, uv) frente a la alternativa adicional. La matriz 


> lim +m1) A 


= 081 f= EE ] E o 
G=-= has] i=lh ., k+1/=1l, .., k, tiene la forma EX )' 


donde arriba se halla la matriz unidad de orden 1, y abajo, la matriz unidad 
de orden k, así que el rango de G es igual a K. 

Al igual que en el apartado anterior, consideraremos que el parámetro 
0 ha sido localizado cerca del punto y = (to, vo). Introduzcamos el pará- 
metro 7 = 7(0) = (7", 7,7") a (4, — Uy, uz — 41, U — vo). La aplicación 
inversa 0 = 0(7) siempre existe y sus coordenadas son ur = 7” + uo, 
=>" +7" +, =7" + vo. Pongamos 7 => y/Vn, y = (4, Y1”, y”) 

Para el nuevo parámetro río y), la hipótesis de homogeneidad tiene 
la forma A, = ([y” = 0). En calidad de alternativa examinemos la hipóte- 
sis “aislada” H3 = (y”K(00)y" > b?), donde /,(0) es la submatriz de Ja 
matriz inicial de información de Fisher 7/(0), formada por sus primeras / 
filas y columnas. 

Teorema 2. Supongamos que en el entorno del punto 00, la familia (Po) 
satisface las condiciones (RR). Entonces, el criterio de relación de verosi- 
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militud 
p fon, 9177 y 


E 
RUX, Y = sup SADA Y) 


> et? (8) 


es el criterio asintósjicamente minima, de nivel asintótico 1 — e, para verifi- 
car Hi = fur = u2) frente a 


HB = ((u — 2) (60101 — 12)” > b/n), (9) 


con un valor común de vi = va = vu y con cualquier b > 0. Aquí h, es una 
cuantila del orden de 1 — e de la distribución x?* con | grados de libertad. 
(Tal será la distribución límite 2 ln Ri(X, Y) en la hipótesis Ha). 

Designemos por 60” el valor del parámetro 0 con el que se alcanza el 
valor máximo del numerador en (8), y por 0” = (u”, v*), el valor de 0 con 
el que se alcanza el valor máximo del denominador. Representemos la 
matriz T(0) en la forma 


10) Ex) 
is o Ra(0) 


Entonces, el criterio 


(0 — 24%, 0%, Y?" — (1%, 0, e) > hy/n, (10) 
donde 
a 1,(01) 0 121(01) 
1(0) = 0 /,(02) R1(02) j (1) 
T12(01) Zi(02)  Rx(01) + L2(02) 


será asintóticamente equivalente a (8). 

Demostración. Este teorema también es el corolario directo del teorema 
3.15.4. Sólo queda aclarar la ESCTUCIUEa de la matriz 7(6) para la muestra 
(X, Y) del parámetro “unido ” Ó y de la matriz M2. Tenemos 


ls ln f(x, y) > Hx, (41, v)) + IO, (142, v)). 
Designemos por 7;, i = 1, ..., k + 1, las coordenadas del vector 6. Entonces 


Mx, (141, vy) 


3 y O<iS! 
O LCR), - 
3h 3 ; I[<is2l, 
Nx, (us, u)) 90, (uz, v)) - 
A ARS TN. 2/<i<€Kk+ l; 


de aquí se obtiene (11) sin dificultad. 
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La matriz M2 para la familia paramétrica Pig, 5, 0) = Piuo, +8, vo) EN 
el punto f = O se calcula análogamente. La misma es igual a /1(00) y corres- 
ponde a la submatriz media de la matriz 1(00). < 

En los ejemplos expuestos consideraremos que los volúmenes de las 
muestras rn, y m2 son arbitrarios. 

Ejemplo 3. Sea XE €. 7, Y E Po ?- Es necesario verificar la hipó- 
tesis H, = (a1 = a2) cuando se desconoce a”, Para determinar los criterios 
asintóticamente minimax con ayuda del teorema 2 necesitamos hallar la 
estadística R¡(X, Y) en (8), donde en nuestro a 4n=0a,v=0,0= 


= (ar, 0%, a Tenemos Mn da. AA Y, EOS) ==” z (mi + m) in (Qro?) NN 


A, e! 
1 2 1 2 : 
=- S / Qu - a) — > ' (y: — 22)”. Reduciendo a cero las deri- 
2? 1 20 a 


ia 
vadas de esta función respecto a a, «2 y a*, y resolviendo las ecuaciones 
obtenidas, hallamos según las designaciones del ejemplo 2) 


9 =(x, y, aSt + (1 - a)Sh), a= E (12) 
f:HX, Y) = (2xe(aSi + (1 - a)SH)] Mtv, 
Procediendo del mismo modo con la función In fA)AY) = 
= UM far Aa Y), obtenemos (véase el ejemplo 2) 


9" = (z, Si, y), 
1 
fALAY) = Qresi ny 2097 (13) 


Ahora bien, el criterio asintóticamente óptimo tiene la forma 


Sk, y > e (m+n) 


así + (1 - a)Sst 
o bien (veáse (7)) 


Va(l — a)ix — yl Ss As 

Vasi + (1 - asi m+m 
donde h, es una cuantila del orden de 1 — e de la distribución x* con un 
solo grado de libertad, así que Yh, se puede sustituir por el valor de »,, 


para el cual Lo ¡(—»A./27 Mera) = 1 - €. Es fácil notar que el primer 
miembro de la desigualdad 


Va(l — a) + m)|X — y 


| A 14 
aSk + (1 — a)Sí dé E 
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que define el criterio asintáticamente minimax, después de sustituir |x — y| 
por Xx — y será asintóticamente normal con los parámetros (0, 1) de una 
variable aleatoria. 

Pero este criterio puede ser exacto (o sea, puede tener con exactitud 
un nivel dado de antemano). Efectivamente, en virtud de los resultados 
del $ 2.32, en el caso de la hipótesis H,, 


nm x - y 
e o % a 
| Fa pa G Yo, 1 


rn 
(m + m)Jask _ 1 zo 
E 240 dba 


1 - S 
(1 + mX1— así _ — 2401-7 E Hna 


g 
du] 


En vista de que las tres variables aleatorias son independientes, la relación 


= 1/2 
== |? ni + 
A - y) data AS (ask + (1 - ash] ñl 
_U- y)Va(l — aJ(m + nm -— 2) pa 
aSt + (1 — a)s+ 


tiene distribución de Student con rn: + m — 2 grados de libertad. Así pues, 
el criterio (compárese con (14)) 


-- YVa(l — am + m - 2) S 
Ta» 
Vasi + (1 — a)s+ 


donde r, es tal, que Ta, +2,-24=74 74) = 1 — e tendrá un nivel de signifi- 
cación exactamente igual a 1 — € y el mismo podrá ser utilizado para 
cualesquiera valores (y no sólo grandes) de n,, n>. Este criterio, que se deno- 
mina criterio de Student, también posee ciertas propiedades de optimiza- 
ción exacta (y no sólo asintótica) (veáse [57)). 

Ejemplo 4. Sea X € %, 4, Y € %., ,3- La hipótesis (01 = 02) se verifi- 
ca cuando se desconoce a. Procediendo del mismo modo que en el ejercicio 
anterior, llegaremos al valor R, en (8), cuyo denominador equivale al del 
ejemplo anterior, y el numerador es igual a 


Ta +n-2 


UP Ja CON. (15) 


448 CAP. 4. PROBLEMAS 97 DOS MUESTRAS Y MÁS 


Escribiendo las ecuaciones para el punto del valor máximo, obtenemos 


mt 
AR E 


ful 


d=L as GaY, 


iw1 
O FO amO. 


De aquí, poniendo 


a 1 
= ; 16 
(CATA cd 
hallamos 
a = px + (1 — p), 
a =Si+(1-pya?, d= SY + p*a?, 
donde, para abreviar, hemos supuesto que A = X — Y; p puede considerarse 
como la solución de la ecuación (16) o 
e a(St + p*a?) 
a(Sy + pla?) + (1 - 0XSÍ + (1 -— pal ' 
Como el máximo en (15) es igual a 
(Ze) MtRYAUSÍ + (1 — pra?) "ASÍ + poa?) m/2, (17) 
comparándolo con (13) y (7), obtenemos el criterio asintóticamente 
minimax 
aSí + (1 — a)Sí + all — aya? 
ehstn +12) 1 
(SÍ + (1 PAYS + play -* á (18) 
o bien 
aSí + (1 — a)sí PA 
SESHI— a) > eh AT", (19) 
ió a(l — aja? 
aSt + (1 — a)sy ; 
donde A = , til 
onde AFA NASA RAS AAN h;¿ es una cuantila 


de la distribución x?* con un solo grado de libertad. Aquí 
4? = (01/m + om), E dos, Si/0T3 1, Sh/03> 1, 04/04 1, 
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ri 
n + 
In 4 E O para cada una de las hipótesis semejantes que Se examinan. Por 


p—>a (para abreviar podemos considerar que a = es fijo), 


consiguiente, el segundo miembro en (19) tiene la forma 
Ae + Ón 
ni + mm 


1 + »  Ón > O. 

El primer miembro de (19) es la relación entre la media aritmética y la 
media geométrica de los valores de Si y S?. Si se designa Si/S% = 2?, 
la desigualdad inversa a (19) puede ser escrita en la forma 


2 
az E 1 at. (20) 
ni +m 


Aquí, en el primer miembro se halla la función de Z convexa hacia abajo 
(para evidenciar la exposición podemos considerar a < 1/2) que tiene un 
cero múltiplo en el punto Z = 1. Como el segundo miembro de esta des- 
igualdad es pequeño, conviene hallar la solución en forma de Z?=1 ++ 
cuando y es pequeño. Utilizando el desarrollo en serie respecto a las poten- 
cias de f, y eliminando los términos del tercero y mayores órdenes de pe- 
queñez, obtenemos, para las fronteras f'1, 2 del intervalo donde es válida 
(20), los valores 


An Uh. + 54) a Ahe + 54) 
de all - aX +1)? da all - am + mm) ” 
670, 5570. 


Esto significa que, si volvemos a las variables iniciales, el dominio 


pl a(l — aX + m2) |S+/S% — 11 > Vhe = dez (21) 


Q. ha sido definido en el ejemplo 3) definirá el criterio asintóticamente 
equivalente a (18) y, por lo tanto, asintóticamente minimax. 


Aquí al igual que en el ejemplo 3, podemos hacer que el criterio obtenido 
sea exacto, ya que conocemos la distribución precisa de la estadística 
Si/Sf. En efecto, 


mSxi/0% € Ha,-1, 1257/03 
y en el caso de la hipótesis H, = (o, = 02), 


msi 
En, -1,9-1> 
as m-—1m-t 


29—8030 
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donde F,, - 1-1 €s la distribución de Fisher introducida en el $ 2.2 y ta- 
bulada en los manuales de estadística matemática. Esto significa que es 
posible calcular el nivel exacto de significación del criterio (21) y aplicarlo 
para cualesquiera n, y na; (las propiedades exactas de optimización de este 
criterio se exponen en (57)). Si son grandes los valores de mm, y 12, el primer 
miembro en (21) (sin signo de valor absoluto) es asintóticamente normal 
con parámetros (0, 1). 

4. Criterio asintóticamente minimax para el problema de homogeneidad 
parcial. Supongamos que X € Pa,, Y E Po, 0, = (t4i, vi), i = 1, 2. Se veri- 
fica la hipótesis (u, = uz) frente a (u, + u2) cuando los valores de v; y 
vz en las muestras X e Y pueden ser cualesquiera. La dimensión «,, al igual 
que antes, se designa por /, | >Kk. 

Introduzcamos el nuevo parámetro 0 = (91, 92) = (tt1, v1, 142, vz) de di- 
mensión 24. Al igual que antes, representemos la muestra (X, Y) (cuando 
ni = m = n) como muestra con observaciones (X1, y1), ...» (Xn, Yn) de 


densidad 
f(x, Y) = Sí, yA, 0 0)- 


Para esta familia, el problema de homogeneidad parcial equivale al 
problema de verificación de la hipótesis HA,, el cual consiste en que 6 perma- 
nece en la “curva” 0 = g(a) = (us, vi, y, va), donde a; = (141, vi, va) es 
el “subparámetro” de dimensión 2X -— /. Le proponemos al lector que escri- 
ba, siguiendo los razonamientos de los dos apartados anteriores, la matriz 
G= 5 i=4,... 2k, j=1, ..., 2k — 1. Su rango es igual a 2k — 1. 

Al igual que en los apartados 2 y 3, consideraremos “localizado” el 
problema cerca del punto 0. = (uo, vo). A la par con 0 introduzcamos el 
parámetro r= (0) =(r', 7%, 7%, 7) =(U — Uo, vi — vo, ta — Ma, 
v2 — vo). La transformación inversa 0 = 6» tiene las coordenadas 


U=T' +M, 041 =7* + vo, 4 = 7” +, 
v2 = pe + U0. 
Si se pone 7 = y/Yn, y = (y', y”, y”, y 1), la hipótesis H, tendrá la forma 
A, = (y” =0). En calidad de alternativa consideraremos la hipótesis 


“aislada” Há = (y” L(060)y" Y > b?)], donde /,(0) tiene el mismo sentido 
que en el teorema 2. 


Teorema 3. Supongamos que en el entorno del punto 60, la familia (Po) 
satisface las condiciones (RR). Entonces, el criterio de la relación de verosi- 
militud 


Ep AA , 
PO Y > E 


(U, UL 
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es el criterio asintóticamente minimax de nivel asintótico 1 — e para verifi- 
car H, frente a la hipótesis H3 definida en (9), para los valores arbitrarios 
de ví y vz. El valor de h¿ aquí es el mismo que en el teorema 2. 


La demostración de este teorema repite los razonamientos de los aparta- 
dos precedentes y asimismo se basa por completo en el teorema 3.15,4, Le 
dejamos al lector que él mismo determine la matriz de información de 
Fisher 1(0) para el parámetro 6, y la matriz Ma para la familia de densidad 
Jé(o, 0, 6, 0) = Liso, vo, u0+f, ve) EN El punto £ =0. 

Con ayuda de la matriz I(6x, 0y) y los vectores (Óx, 0y) — 
— (u*, ví, u”, vz), donde (Óx, Óy) y (u”, vi, va) son los vectores en los 
que se alcanzan los valores máximos del numerador y el denominador en 
(22), es posible, como antes, mediante el teorema 3.15.4 (véase (3.15.12), 
construir el criterio asintóticamente equivalente que utiliza la forma 
cuadrática de las estimaciones introducidas. «< 

Ejemplo $. Comparación de las varianzas de las poblaciones normales, 
Sea XE La, di, Y € Loa. dy). Hi = [o = 02). Aquí, los cálculos son 
mucho más fáciles que en el ejemplo 4, ya que conocemos el valor del 
numerador en (22) (al igual que el vector (Óx, 0y) = (X, Si, y, Sh), y el 
valor del denominador ha sido hallado en el ejemplo 3 (véase (12)). La 
desigualdad (22) aquí tendrá la forma 


aSt + (1 — ms; mem). 
Si? S ai 


Comparando esto con (19) y con los planteamientos posteriores, llegare- 
mos a los mismos criterios y a las mismas deducciones que en el ejemplo 4, 

Ejemplo 6. Problema de Behrens — Fisher acerca de la comparación 
de las medias de dos poblaciones normales. Sea X E Pa, 04, Y E Las, od, 
H, = fa, = a] y Supongamos que los valores g, y dz son arbitrarios. Para 
este ejemplo, el numerador en (22) es el mismo que en el párrafo anterior, 
y el denominador fue hallado en el ejemplo 4 (véase (17); allí éste era el 
numerador para (8)). 

Por consiguiente, el criterio asintóticamente minimax tiene la forma 


Si+ paty o" 


yla 2 
(EL + (1 —- pYA ) ES > eh/mena; (23) 


aquí A = x — y es representable en la forma 


A = (a, — a) + a e EE do, 1. 
ny mn 


Si/oit7 1, Si/oi> 1, 
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así que A = O para la hipótesis H,. Esta relación, evidentemente, 


también conserva su validez para cada una de las alternativas semejantes. 
Para hallar un criterio más simple en cuanto a su forma y que equivalga 
asintóticamente a (23), en ambos miembros de la desigualdad (23) separare- 
mos sus partes principales. Obtendremos 


a(l - py a? ¿4 — aJp*a? tds e + o( 1 ) 
Sí s+ a+ m (m + my )' 


donde 2. e = const. Teniendo en cuenta que 
á as; 


LS 2 , 
rr 


Qn > e” = const, obtenemos 


a(l — asian + nm) + a(1 - a)SvaA*(m + m2) E 
(aS% + (1 - a)Sí) 


4 e 1 
+4 (n + ras > he + ++) 


donde 20” = const, A*(m + n) 7 0. Equivalentemente esto se 
puede escribir de la forma siguiente: 
A*(m + n2) 


> he+ ón, 5,0. 
SHa+sWwaao + 7 


De aquí se deduce que el criterio 
ld o (24) 
VSi/a + SPA a) 


es asintóticamente equivalente a (23) y, por lo tanto, asintóticamente mini- 
max para el problema de Behrens — Fisher. Aquí A;/2 tiene el mismo sen- 
tido que en el ejemplo 4. A distinción de los ejemplos 2—-4, aqui la 
distribución antelímite de la estadística en el primer miembro (24) depende, 
para la hipótesis H,, de los parámetros a? y dí. 

S. Algunos otros problemas. Aquí señalaremos dos clases más de 
problemas cuya solución asintótica puede ser hallada con ayuda del teore- 
ma 3.15.4. 

1) A la primera clase de problemas pertenecen aquéllos que generalizan 
los problemas de los apartados 2—-4 para el caso cuando se verifican las 
hipótesis de tipo (0, = f(02)) (por ejemplo, (0, = a + b02)) en condi- 
ciones del apartado 2, y de tipo [u, = f(u2)] en condiciones de los aparta- 
dos 3 y 4. Es fácil notar que los planteamientos de los apartados 2-4 
se extienden a este caso más general. 
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2) A la segunda clase de problemas pertenecen aquéllos que constan 
de tres muestras y más. Examinemos, por ejemplo, el problema de homoge- 
neidad para tres muestras. Supongamos que XE€ P»,, YE Ps,, ZE Po,. 
Se verifica la hipótesis H, = (01, = 02 = 03] frente a la alternativa adi- 
cional. Supongamos, para abreviar, que los volúmenes n,, m2 y n3 de las 
muestras son iguales a n, = n2 = m3 = nh. Examinemos la muestra unida 
(X, Y, Z) como una muestra de volumen ” con observaciones (X1, y1, Z1), ..- 
e.» (Xnm» Yn» Zn) de densidad Jfi(x, Y, 2) =felxiMe0Me (2) donde 
0 = (01, 02, 63). Entonces, la hipótesis AF, será equivalente al hecho de que 
9 permanece en la “curva” Ó e glo), am 61, g(a) = (ax, a, 1). Vemos que 
el problema de nuevo se reduce al problema examinado en el teorema 3.15.4. 


$ 2. Problema de homogeneidad en el caso general 


1. Planteamiento del problema, En este párrafo examinaremos dos mues- 
tras X e Y de volúmenes n, y nr, respectivamente, sin suponer que las mis- 
mas pertenecen a cualquier familia paramétrica. 

El problema de homogeneidad de las muestras X e Y, en el caso general 
consiste en lo siguiente. Designemos por P, y P, las distribuciones de las 
muestras Xe Y: XEP,, Y E P.. Se verifica la hipótesis A, = (P, = P,] 
frente a Az = (P, * P). Evidentemente, ambas hipótesis son compuestas. 
Las distribuciones P, y P2 pueden elegirse de una familia dada 2% o ser 
arbitrarias. El principio general de construcción del criterio estadístico para 
verificar H, frente a H, es el mismo que en el capítulo 3. Al igual que 
en el $ ), la diferencia sólo consiste en que aquí este principio se basa en 
la muestra unida (X, Y), así que xr = T(X, Y) es la probabilidad de aceptar 
H, para una muestra dada (X, Y). En el caso no randomizado (r =06 
1), el criterio x es definido por una región crítica Q C £ "9 +*m tal, que para 
(X, Y) €R se acepta HF. El número 


l-e= inf P, x P.(X, Y) 2) 


se llama nivel de significación, y el valor 
BAP, Poo Pi xPAx Y) €) PieZ2 P.c 2? 


se denomina potencia del criterio r en el “punto” (P,, Pz). 

El criterio r se denomina criterio conciliable si Br(P1, P2) > 1 cuando 
ni > 00, n3-> «s y para todas P, x P,¿, P,€% P7€2 

Ya sabemos que con el crecimiento de »n: y m2, las distribuciones empiri- 
cas Px, Py, correspondientes a las muestras X e Y, se aproximan indefinida- 
mente a P, y P,, respectivamente. Por eso, la base natural para construir 
los criterios de homogeneidad es el uso de distintos tipos de “distancias” 
d(Px, Py) entre Py y Py, donde d satisface las mismas condiciones genera- 
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les que hemos descrito en el $ 3.12, En este caso revisten interés especial 
los criterios no paramétricos y asintóticamente no paramétricos que se defi- 
nen del modo siguiente. 

Sea d(P, Q) cierta distancia (no obligatoriamente métrica) en el espacio 
de distribuciones. Si la probabilidad 


P, x P(d(Px, Py) ><) =€ (1) 


no depende de la muestra P,, entonces el criterio *, definido por las 
igualdades A Ph, Py 
, si d(Px, Py) <c, 

Hs A en el caso contrario, (2) 
se llama criterio no paramétrico. Es evidente que el criterio no paramétrico 
construido tendrá un igual a nivel 1 — e. 

Así mismo se determinan los criterios no paramétricos cuando (1) se 
conserva asintóticamente al introducir la operación Mm ¿O el primer 


m- 
miembro. En este caso el criterio (2) tendrá un nivel asintótico igual 1 — e. 
Cuando falta la no parametricidad (exacta o asintótica) es muy difícil cons- 
truir los criterios de verificación de la homogeneidad de un nivel dado. 

Examinemos algunos criterios principales de verificación de la homoge- 
neidad. 

2. Criterio de Kolmogórov — Smirnov. Supongamos que P, y P, perte- 
necen a la clase 4 de todas las distribuciones continuas en una recta, y 
que Fx y Fy son funciones empíricas de distribución, correspondientes a 
Px y PY. En calidad de distancia d(Py, Py), el criterio de Kolmogórov — 
Smirnov considera la estadística 


Da. m = sup [FX — FYto)l. 


El criterio D,,, n, > €, construido con ayuda de la estadistica D,,, », no 
es paramétrico. En efecto, supongamos que es cierta la hipótesis H, y que 
F(() es la función general de distribución de X e Y. La estadística Da, » 
se puede escribir de la forma siguiente: 


Dmnz = Sup |[GX(F(O) — GHUEO), (3) 
donde Gi(u) = Fx(F7 '(u)) es la función empírica de distribución que 


corresponde a la distribución uniforme en [0, 1] (veánse los 5$ 1.6 y 3.12). 
Pero en virtud de (3), D,,, », = sup |¡Gx(u) — Gy(u)], así que la distribu- 


ción D,,. n no depende de F de ningún modo. 
Se puede hallar la distribución exacta de la estadística Dn,, m. Por 
ejemplo, cuando n; = Mm =n, 


[/k] 
P(nDa. > k) = 4C3n)7' ? (Pic, (4) 
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k = 1,2, ..., n. Este hecho fue establecido por Gnedendo y Koroliuk redu- 
ciendo esta tarea al simple problema de vagancias aleatorias (véase (32)). 
En el $ 1.6 hemos visto que la distribución 21 Gx(u) coincide con la 
distribución del proceso poissoniano f,(u) a condición de que ?1(1) = n,. 
Como Gx(u) y Gy(») son independientes, la distribución Gx(u) - Gy(u), 
u € [0, 1] coincide con la distribución del proceso poissoniano compuesto 
f(u), en el que, con intensidad n,, se producen saltos de magnitud 1/n,, 
y con intensidad nr, saltos de magnitud 1/2; la distribución ha de tomarse 
a condición de que ocurrieron », + n2 saltos y que ¿(1) = O. Por eso 


P(D,, m< Xx) = P(sup|5()| < x/t(1) = 0; ocurrieron ni, + 12 saltos). 


A base de este hecho, en el Suplemento 11, además del teorema 1.6.2 
de convergencia del proceso w.() = Vrii(Gí(u) — u) hacia el puente brow- 
niano w“(u), también se demuestra la afirmación de que hacia el referido 
puente también converge el proceso 


Mm, mu) = 22 (Gh) — GHu)). 


Mejor dicho, para cualquier funcional f medible y continua en una 
métrica uniforme, la distribución f(w»,, »,) converge hacia la distribución 
Kw"). De aquí se deduce inmediatamente la siguiente afirmación denomi- 
nada teorema de Smirnov. 


Teorema 1. 


a AE Dm, m < x) Se ( sup [w%()] <x] = KG), 


donde K(x) es la función de Kolmogdrov (véanse los $$ 1.8 y 3.12). 


Como la función K(x) está tabulada, el teorema 1 ofrece un medio có- 
modo para el cálculo aproximado del nivel de significación del criterio de 
Kolmogórov — Smirnov. 

Le dejamos al lector que el mismo se cerciore de que el criterio de Kol- 
mogórov — Smirnov es conciliable, 

3. Criterio de signos. Sea 7, = nm. = n. Entonces, de las observaciones 
de las muestras X e Y se pueden componer n diferencias: 


XI — Yls »»»» Xona — Yn. (5) 


Si es cierta la hipótesis H, y Pr x P/(x1 — y, = 0) = 0 para todas las P, €. 4 
(esto, evidentemente, siempre es así cuando Pes un conjunto de distribu- 
ciones continuas), entonces 


P, x Piu —y1>0)=P,) x Pr(x; — y: < 0) = 1/2, 
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La estadística y del criterio de signos es el número de diferencias positi- 
vas en (5)”. El propio criterio se puede construir adoptando en calidad 
de conjunto crítico, 

n 
y , > e] » 


Como la distribución de y no depende de P,, 
P, x Pi(y e k) = C-=", 


por lo tanto, este criterio no es paramétrico. 
El número c, según el nivel dado 1 — e del criterio, se elige de la relación 


Q = fax, Y): 


k:2k = n| 520 ">31-=e. (6) 


Como aquí el primer miembro crece de un modo discreto con el aumento 
de c, en calidad de solución conviene tomar el valor minimo de c, con 
el que el primer miembro en (6) supera el valor de 1 - e. 

Vemos que aquí se utiliza el criterio para verificar la hipótesis de que 
la probabilidad de éxito en el esquema de Bernoulli es igual a 1/2, Desde 
el punto de vista del problema inicial, se verifica no la hipótesis de homoge- 
neidad, sino una hipótesis más amplia acerca de que 


PP, x Paxr — y <0) = | Fi) dFt) s 1/2, (7) 


donde F, corresponde a P,, ¡ = 1, 2. La relación (7) significa que la mediana 
de distribución x, — y, es igual a 0. 


El criterio de los signos del nivel asintótico 1 — € tendrá la forma si- 


guiente: 
2| y— 2 
x(X, y) =1, si > Me/2, (8) 


vn 


Porl— Ac) Ae 2) = 1 - E. 


Este criterio no es conciliable, ya que para P, x P2 que satisfacen (7), 
BAP, P2) >< 1 cuando n, — co, nm > 00, 

4. Criterio de Wilkoxon. Este criterio se aplica ampliamente al verificar 
las hipótesis de homogeneidad. 

Juntemos las muestras Y e Y en una sola muestra (X, Y) y construya» 
mos de ella una serie variacional, o sea, situemos todas las observaciones 


* Si en Jas muestras X e Y, debido al valor aproximado de Jos datos, resulta que algunas 
diferencias xs — yy = O, entonces, éstas deben ser simplemente omitidas, tomando en calidad 
de hn el número de diferencias distintas del cero. 
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en orden de crecimiento. Obtendremos una sucesión de tipo 


yO, y 190, y 8, 0, (9) 


donde el índice superior designa el número de observación en la serie va- 
riacional general, mientras que la letra indica la pertenencia a la muestra. 
Supongamos que F;, 72, ..., 'n, designan los números de elementos de la 
muestra X en la serie variacional (9). Para la sucesión escrita en (9), r, = 3, 
rm =$. Llámase estadística de Wilkoxon la función 


U= U(X, Y) = 2 (ri — D), 


donde r, — ¡es el número de elementos de la muestra Y que son menores 
de x(;). 

En vista de que el orden de observaciones en (9) es invariante respecto 
a las transformaciones monótonas de las variables (el orden de Fx(£t), FY(1) 
será el mismo que para Fx(F7*(0), FAXF”7*(£), donde F es la función 
de distribución), el criterio construido según la estadística U no será para- 
métrico. 


Teorema 2. Supongamos que X€E P,, YE P y F¡€ Sson las fun- 
ciones de distribución correspondientes a P;, i = 1, 2; Fes la clase de todas 
las funciones de distribución continuas. Supongamos también, que 
a = nm /(n, + n3) > %a cuando n; > co, mn, > oo. Entonces 


U — nimMF:(x1) 
nia + m2) 


donde 0? = (1 — a)DFAx1) + aDF y). 
Si F¡ = Fa = F entonces FaAx1) € uo, 1, Fi(y1) € Uo 14, por consiguien- 
te, MFA(x1) = 1/2, DF:(x1) = DF¡(y1) = 1/12. 


Por lo tanto, el criterio de Wilkoxon de nivel asintótico 1 — € tendrá 
la forma siguiente: 


E do, e, (10) 


nf Mr vVmmíún + 12) 
AS A 
2 dl 2v3 á (1D) 


Do, 1-02) Aw2) = 1 — £. 


De (10) se deduce que este criterio tiene por objeto principal la verificación 
de la hipótesis (compárese con (7)) 


j FAOdF (t) = 1/2 o bien ¡ (FAO) - FEXOdFi e) = 0. (12) 
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Si admitimos, sin limitar la generalidad, que Fi(1) = £, £€ [0, 1], y si 
suponemos que F2(0) = 0, Fx(1) = 1, entonces, en virtud de la igualdad 
J 
/ (1 — Fa(1)dt = My,, 


la hipótesis que se verifica adoptará la forma y, = 1/2. 

Esto significa que el criterio de Wilkoxon, al igual que el criterio de 
signos, es principalmente sensible a los desplazamientos de las distribu- 
ciones una respecto a otra. Para tales alternativas desplazadas, su potencia 
puede ser bastante grande (véase el ejemplo 1). Pero si Fz x Fi y se cumple 
(12), entonces, según el criterio de Wilkoxon, la hipótesis ([F2 = F,) será 


2d : Ne/2 Ae/2 ) 
aceptada con una probabilidad próxima a % - A . Esto 
E s P 0. 2430 2V30 


significa que el criterio de Wilkoxon será inconciliable. 
Demostración del teorema 1. La estadística U puede ser escrita de la forma siguiente: 


ll 
Un 27 mFY) = mm | FUOdFM0). 
lay 


Designemos 
wy(1) = VA(FR(0) — FCO), wr(t) = VaFY) — Falo). 
Entonces es evidente que 
U = mm | Fa1dFN() + Val + m2) x 


x [va Í wr(S9dF(1) + Y1 -a | scocco| + Vmym| wr(Ndwx(t). (13) 


Como aquí í FxQM)dwx(t) = | we(1)dFx(0) y, por consigulente, las integrales segunda y tercera 
en (13) tienda la misma fo y son independientes, para demostrar el teorema es suficiente 
convencerse de que 


j »H0dFO € $0, dl, 0 = DEFI.) (14) 
y que 
1 
———=—- Y wrliddwx (1) - 0. 15 
Jm + MM P ? 
En virtud del teorema 1.6.2, 
| wr dF1(e) 6 Í w(ELS)AFO, (16) 


donde w*(u) es el puente borwniano. Para hallar la distribución de la última integral, señalare- 
mos que las trayectorias del proceso wienerlano w(w) de probabilidad 1 son continuas (11), 
wYu) = w(u) — uw(1), y que, por lo tanto, la integral (16) es, por definición, el resultado 
de la convergencia casi segura de las sumas cuando N — oo, 


N 
Y) MUELA, — mm, (17) 


¡m1 
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donde m, = adi (111.0 forman la partición del eje real, Ayg = £(t) — 8(4-1), 
mMExt) = y AJw(P), W(1) = p> Ay w(F»). 
.] 


fw1 


En virtud de la transformación de Abel, 


$ E aja- y y aja. 


ful .] Jo1 


Por eso (17) es igual a 


N 
Y) (1 - Fi(1) — m)aw(A). (18) 
fw1 
Aquí l - m; = | FNOAFLO = Mi y A:¡wW(F,) son variables aleatorias normalmente distri- 
buidas e independientes con parámetros (0, A¿F3). Por eso la distribución (17), (18) será normal 
con media nula y con varianza 
N 


Y) (m3 — Fila A: | (mm — FOPAFAS) = DF), 


21 


La relación (14) queda demostrada. 
Para demostrar (15)”, lo más fácil es estimar la varianza de la integral en (15). Volviendo 
a aproximar la integral con ayuda de la suma final, es posible convencerse que la varianza 


2 
Dx.y = M ( rival) 


está limitada cuando ny, > co, m3 > co. De aquí y de la desigualdad de Chébishev resulta (15). 
Debido a los cálculos voluminosos y rutinarios, omiítiremos la demostración del carácter timita- 
do de Dr. y. a 

Datos más exactos acerca de los criterios de signos y de Wilkoxoua se exponen en (41). 


Ejemplo 1. Hemos señalado que los criterios de signos y de Wilkoxon 
son los más sensibles a los desplazamientos. Por eso es interesante compa- 
rar su potencia con la del criterio óptimo en el problerna donde la homoge- 
neidad se verifica para la familia 4%de distribuciones que sólo se distinguen 
por sus desplazamientos. Pues, supongamos que 


P= (9. 1), P, =%., 1, Pa = Lo, t, ==. 
Bn este caso, conforme al teorema 1.1, para verificar la hipótesis 


q: = (P, = P:) = la = 2] frente a Hi = (lor e on| 2 b/vn existe el 
criterio asintóticamente minimax wo de nivel 1 — e, que tiene la forma 


[X= Y| > Ay2V2/n, Bor((—»e/2, Me/2)) = 1 - € 
(el hecho de que en nuestro ejemplo esta desigualdad equivale a (1.3 y 1.4), 
el lector puede comprobarlo personalmente). Tomemos este criterio por 


*) La integral en (15) converge respecto a la distribución hacia [w"(Fr(1)dw*%(F, (0). 
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patrón para la comparación con otros criterios y examinemos la alternativa 
(P,, P2), donde a = a, + c/vn (examinamos las alternativas semejantes 
para no tratar el problema de grandes desviaciones). Es evidente que en 
este caso (x — Y) € P-evx, 2/n- Por lo tanto, 


Br(P1, P2) = Py x Pa([X — Y] > Av2vV2n) = 
= 1 -— P-eovii(—hAe/2, Me/2) = 
=1- Lo1(—-ds + c/V2, Merz + c/V2) mu Bo(c). (19) 


Examinemos ahora el criterio de signos (8), designándolo por *,. Ha- 
ciendo uso del desarrollo en serie de las potencias de c/vn, hallamos 
(da, (x) = Pa,or((— 00, x))) 


c 1 Cc 1 1 
P, X P2Qu — Y < 0) e 80. (5) "> + Na. E + o(5): 


Por eso en el punto (P,, P) 


2 n , cvn ) 
a E o 1. 
vn ( 2 2vn 
Por consiguiente, para el criterio de signos xr, de nivel asintótico 1 — e, 


BrP., Pa) =P xo p.(2 y -3| > dwalñ) > 


S1=> 1 ((— + += , Mera + +)) 


Volvamos, por último, al criterio r2 de Wilkoxon (véase (11)) que en 
nuestro caso tiene la forma 


2 3/2 
n Dean 
U--——|> ; 
| 2 v6 
Evidentemente, la estadistica U es invariante respecto a la transformación 


de desplazamiento de los elementos de las muestras X e Y. Por eso se puede 
considerar que P, = Lo 1, Pz = $.) y, por lo tanto, 


MFP2+(x1) = [Amaro [o (+ ori pu | | 
C AS — . O -— 


Como DF:(x1) > DF; (x1) = 1/12, DF, (y) DF, (x1) = 1/12, según el teore- 
ma 2, 


a 
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2 


Mn? 
6 


Bn(Pi, P2) =P, x al > 


a It VS 
< ón (UE 2) < < Ae+2 + C V 3 +) - 
=] — or ( dto oran >. 


Ahora debemos señalar que So(c) (véase (19)) es una función monótona 
creciente de c y que, con grandes valores de », 


BrP,, Pa) = Bo A? : , BxrAP,, ANA ). 


Ahora bien, para cada c > 0, el más potente entre los ro, Tr: y m2 resulta, 
como era de esperar, el criterio *o. Le siguen el criterio de Wilkoxon y 
el de signos; con la particularidad de que el criterio de Wilkoxon cede muy 
poco al criterio ro, ya que V3/r = 0,977. 

Si para ese mismo desplazamiento «2 — a, = c/vVn examinamos las 
muestras X” e Y” de nivel 7” > n, entonces, para obtener (con ayuda de 
los cálculos efectuados) la potencia de los criterios rA(X”, Y“) en el punto 
(P,, P2), debemos examinar el problema anterior para un nuevo valor de 
Cc, igual aC” == cVn*/vn (entonces a — 0 puede escribirse en forma de 
c”/Ín”). Por consiguiente, las potencias de r:(X', Y") y de ra(X”, Y”) 
en ese mismo punto (P,, P>) serán aproximadamente iguales a 


(200) (2 0), m2 0) =00( Y 32 o). 


A = = 1, 


3In' 


= 1, obtenemos los valores de n” = 3” 


n' = E h (estos valores no dependen de c) para el número de observaciones 
que alceitamos realizar a fin de obtener con ayuda de los criterios r1 y 
*2, respectivamente, la misma potencia que para el criterio ro con n obser- 
vaciones. Por ejemplo, para n = 100 observaciones con criterio ro necesita- 
remos, para Obtener esos mismos resultados, n* = 105 observaciones con 
criterio 2 y n' «= 157 observaciones con criterio Ty. 

Obtendríamos absolutamente otros resultados si hubiéramos verificado 
la homogeneidad para la familia 4%4= (do .-). En este caso los criterios 
de signos y de Wilkoxon resultarían inconciliables. Más aún, el criterio de 
signos de nivel 1 — e sería, en realidad, equivalente al criterio » e e que 
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no depende de las muestras, ya que M(x1 — y1) = 0 y P, X P2(u — y1 > 
> 0) = 1/2 para cualquier par de distribuciones P, y Pz de 4% Para este 
problema se podrían examinar otros criterios no paramétricos que utilizan 


Aa 
las estadísticas r,, por ejemplo, el criterio y (Mr — 10, Fo =0, fas > 
¡=0 


= mz que se asemeja por sus propiedades al criterio de Morán ($ 3.12). 


5. Criterio x? como criterio asintóticamente óptimo para verificar la 
homogenekdad según los datos agrupados. En este apartado supondremos 
que los datos en ambas muestras X e Y de volúmenes n: y '2, respectiva- 
mente, están agrupados (véase el $ 3,16). En este caso en vez de las muestras 
X e Y es posible utilizar los vectores y = (v1, ..., »r)yY Mm = (Mr, --...- , 
pr) de las frecuencias de observaciones de las muestras X e Y, respectiva- 
mente, que cayeron en los intervalos A;,, . . ., A, que definen la agrupación. 
Designemos por 9; = (0;1, . . ., 0:ir), i = 1, 2, los vectores de las probabilida- 
des de que las observaciones de la primera y la segunda muestras caigan 
en los intervalos 4,, . . ., A,, de modo que 01; = P(xy € Ay), 9u = P(y, € Ay). 
Las muestras aproximadas Y e Y entonces pueden considerarse como mues- 
tras de las familias paramétricas Bo, y Bo,, respectivamente. Ahora bien, 
el problema llega a ser paramétrico y podemos utilizar los resultados cita- 
dos en el ejemplo 1 del párrafo precedente. De este ejemplo se deduce que 
si verificamos la hipótesis de homogeneidad H, = (6, = 9,) en el caso en 
que el parámetro 0 está localizado, o sea, los valores de 9, y 9, se sitúan 
en el entorno del punto 90 = (601, . . ., 00»), entonces el criterio asintótica- 
mente minimax de nivel asintótico 1 — € para verificar H, frente a 


_ Ou 0) pb? 
Hi = (2 E A 
tiene la forma 
2, (4-£ LES 
Ri ma YI + Bi ; 


donde h. es una cuantila del orden de 1 — e de la distribución x? con 
r — 1 grados de libertad. Este es precisamente el criterio x? para verificar 
la homogeneidad según los datos agrupados. 

En calidad de criterio asintóticamente equivalente puede ser considera- 
do el criterio 


P 


Y) vn 22 + Y a da e — Ds + min PLE e 


lat e1 fe. 1 
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5 3. Problemas de regresión 


1. Planteamienio del problema. En las aplicaciones a menudo surgen pro- 
blemas referentes a las observaciones cuya distribución varía en distintos 
experimentos al cambiar algunos parámetros que caracterizan estos últi- 
mos. El conjunto de valores de los parámetros mencionados en el ¿-ésimo 
experimento, ¿= 1, ..., n lo designaremos por 


Xi = (Ut, +.» Xir) 


(así que r es la dimensión de los vectores x;). Los valores de x; « son determi- 
nados por el experimentador o por la naturaleza del fenómeno que se estu- 
dia. Designemos el vector (Xi.x, .. ., Xn,x) por la letra Xx, y la matriz 
$) s (xf, ..., x2), por la letra X. Ahora bien, aquí, a distinción 
de lo expuesto anteriormente, X' es una matriz del orden de r x n y puede 
ser un conjunto no aleatorio arbitrario de números cuya naturaleza no nos 
interesará. Bl vector de observaciones se designa por Y = (yy, ..., ya). 
Los problemas de regresión están relacionados con la suposición de que 
las observaciones y:, en función del conjunto de parámetros Xx, = (X¿1,..., 
X,r), tienen la forma 


Yi 209x111 +... + 0OrX2 + fs, [=1, cs A (1) 


donde a = («1, ..., y) son constantes desconocidas para nosotros, y 
E, € do, son constantes independientes. 

La constante a: desempeña a menudo un papel especial, ya que en una 
serie de casos ésta separa en la representación (1) el sumando constante, 
lo cual corresponde a que en la matriz X se supone de antemano X, = (l, 
« ..» 1) Gu4,1 = 1). No haremos uso de esta suposición. Las variables aleato- 
rias €, se deben a los ruidos y fluctuaciones o a los errores de medición. 

En forma matricial las relaciones (1) pueden escribirse del modo si- 
guiente 


Y=0aX+E¿ (2) 


La regresión que tiene la forma (1) y (2) se llama lineal (tanto respecto 
a a como respecto a XA). En calidad de problemas de regresión pueden con- 
siderarse tanto el problema de estimación de los parámetros desconocidos 
a y a”, si se sabe que es válida (1), (2), como el problema de verificación 
de la propia hipótesis de que la representación (1), (2) tiene lugar. En ambos 
casos, como datos iniciales sirve la «muestra» (X, Y). El término «muestra» 
se utiliza aquí en un sentido más amplio que antes, designando con él el 
conjunto de resultados de observaciones que nó tienen obligatoriamente 
la misma naturaleza. Además, recordemos que la primera de las dos «mues- 
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tras» X e Y puede ser no aleatoria. La matriz X' se llama, a veces, regresor 
y el vector Y, respuesta. 

El modelo de regresión (1), (2) es muy general si se tiene en cuenta que 
y: depende del conjunto de parámetros. Suponiendo, por ejemplo, 
Xx = Yx(20, donde Y, ..., », es un conjunto dado de funciones, y 2; 
son los valores del parámetro unidimensional, obtenemos el modelo 


Yi = 01 1[Zi) +... + orrbrlzi) + E) ¿¡=l,... n, (3) 
de la regresión respecto a las funciones arbitrarias y1, ..., Yr (y, como 
antes, lineal respecto a a). Si y (2) a 1, ya(z) = z y r = 2, obtenemos el 
modelo de una regresión lineal elemental (unidimensional) (fig. 6). 


y a a + az 


Fig. 6. 


A distinción del modelo elemental, el modelo general (1), (2) se denomi- 
na, a veces, regresión múltiple. En general, como vemos, los problemas de 
regresión están relacionados con el estudio (existencia) de la dependencia 
funcional y = p(x) para una clase dada de funciones y en los casos en que 
las observaciones de la variable y, para x dada, van acompañadas de «rui- 
dos» en forma de desviaciones aleatorias. 

Las filas X,, ..., X, de la matriz X en (2) suelen elegirse de modo 
que sean linealmente independientes (de otro modo no podremos estimar 
las coordenadas de a). También seguiremos este convenio que significa que 
el rango de la matriz X' es igual a r. 

A veces es más cómodo tratar con los vectores ortogonales X,, ..., 
X,, o sea, con los vectores que satisfacen la condición (X,, Xy) =0,i 3% Jj, 
donde (a, b) significa el producto escalar, Si el conjunto inicial de vectores 
linealmente independientes (Xx) no posee tal propiedad, el mismo puede 
ser ortogonalizado introduciendo nuevos vectores: 


X[=X., 
XA?=X +0,1X1, 


(4) 


Los coeficientes as, se deducen fácilmente de las condiciones de ortogonali- 
dad Xi 1 X/, k 4 j, así que, por ejemplo, a», = — La, A) . Las relacio- 
(X1, X1) 
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nes (4) pueden ser escritas en forma de X* = AX, donde A es una matriz 
invertible triangular (con unidades que pasan por la diagonal principal). 
De aquí obtenemos X = A7“!|1X', Y =a4"'X" + £ Hemos llegado al 
problema de regresión con coeficientes $ = a4”?. El vector q se recons- 
truye de un modo evidente por $ con ayuda de la igualdad « = £4. 

Para una regresión lineal elemental, la suposición acerca de la ortogona- 
lidad de X= (1, .... Dy XA2=(, ..., 74) significa la suposición de 
Y 2; = 0 que, evidentemente, puede ser satisfecha variando el comienzo de 
la lectura de la variable 2. 

2. Estimación de los parámetros. En lo sucesivo supondremos por do- 
quier, que 7 < n y que los vectores Xx, k = 1, ..., s, son linealmente inde- 
pendientes. La función de verosimilitud de la observación Y (con X dada) 


para la regresión (1), (2) es igual a A , 
1 E 1 A E Ez 
Fa. o (Y) 47)... expf — Ea 2 (y. 2001) = 


>) e LE 


La función (5) depende del parámetro 0 = (o, a?). Nótese que si ($) 
se considera como función de verosimilitud no de una sola observación 
Y (o, (X, Y), sino de » observaciones yy, .. ., Yn, ella no corresponderá 
a la muestra de una familia paramétrica cualquiera. Las observaciones y; 


(5) 


se refieren a distintas distribuciones $, 2, y = Y) 0xX¡,x que dependen 
kal 


de xs. Por eso las consideraciones expuestas en los capítulos anteriores, don- 
de se utilizó la misma distribución de los elementos de la muestra, aquí 
no se aplican directamente. 

Así pues, examinaremos (5) como función de verosimilitud de la obser- 
vación (X, Y). Hagamos uso del método de verosimilitud máxima. Directa- 
mente de (5) se deduce que la estimación de verosimilitud máxima a* = a” 
que maximiza fo( Y) respecto a a es la estimación que minimiza |Y — oX[?. 
Por eso en nuestro caso el método de verosimilitud máxima coincide con 
el «método de cuadrados mínimos». 

Designemos por -41X] el subespacio tendido en los vectores Xi, ..., 
X,. El mismo constituye una población de puntos en forma de a«Y cuando 
a: recorre los valores de R”. La dimensión de este espacio es r y en él sólo 
hay un punto $ = aX que es el menos alejado de Y (fig. 7). El valor de 
8 está unívocamente determinado por la condición de ortogonalidad Y — £ 
y 1X], o bien, que es lo mismo, por las r condiciones 


(Y - AX Xe)=(Y-a4mai=0,k=1,... 7. 


30— 28030 
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En forma matricial estas condiciones pueden escribirse del modo siguiente: 
(Y - a*X)X* «== 0. De aquí hallamos 
at = YX UXXD)”7!. (6) 


Aquí, la matriz inversa (XX7)” ! (del orden de r x r) existe, ya que la matriz 
D = XX” está definida positivamente. En efecto, hemos visto que existe 


Fig. 7. 


una matriz no degenerada A tal que las filas de la matriz X” = AX son 
ortogonales. Por consiguiente, la matriz D puede ser escrita del modo si- 
guiente: 


XX = A CUXUATYMA Y = A BAT Y, 
donde B = X'“(X')' es una matriz diagonal con los elementos 


wa SMX/P>0 parai=j, 
ax, xp = [1 para ¡A ¿. 
Por lo tanto, B está definida positivamente, aBa? > 0 para cualquier a € R', 
a 0. Poniendo hb =aaA, obtenemos bDb? = aAXX"A*a” = aBa?” >0 
para cualquier be R”, b 3 0, que es lo que se necesitaba demostrar. 
Si X4 son ortogonales, de (6) hallamos aj = 4 44) 
(X , (Xx, Xx) 

El resultado (6) también puede ser obtenido derivando (5) respecto a 
ax e igualando a cero las derivadas. 

La diferencia Y — a” X a veces se llama resto. Esta diferencia es ortogo- 
nal a 4(X] y, al mismo tiempo, a cualquier vector yX € -41X], y € R”. Si 
se adopta y = a* — a, de la igualdad Y - 4X = Y - a*X + (a — a)X se 
deducirá 


[Y - aX]? = ¡Y - aX]? + [(a* — a)X1. (7) 


Hallemos ahora la ev.m. para o?. De (5) se deduce que ésta será la mis- 
ma estimación que para una familia normal (se puede volver a derivar (5) 
respecto a o, igualando a cero la derivada), así que 


(2) =- [Y - a*xP. (5) 
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Pongamos 


e. 1 al O = 1 e 
(PY = 5 IY - “XP =- — (06). (9) 


En lo sucesivo E; significará una matriz unidad de orden /, o” = Hay. 


Teorema 1. (6) y (9) son las estimaciones eficientes no desplazadas e 
independientes de los parámetros a y a”. Además, 


(a* - ayD'” E bos, D= XX”, (10) 
(a — rkd9Y/0 = |Y - a*X!/0? € Hp-+. (1) 
Si Xx son ortogonales, ax son independientes, 
(az — ar)|Xx| € Poo. (12) 
Corolario 1. De (10) y (11) se deduce que 
AN CE 
0 == 17 = Fr m- Fo 13 
(n — Na) |Y — a" X] 0 
Sean 3, a” “subvectores” de dimensión | £ r de los vectores a y a" for- 
mados por coordenadas de números fijos Ki, ...., ki, y sea X una matriz 


formada por las filas Xx,, .... Xx. Entonces, si Xe, k =1, ..., 1, son 
ortogonales, entonces 
(2 - ANXAXTV? E Borís, (ad — ax)lXxl/o” E Tn. (14) 


Demostración del teorema 1. En vista de que YX” = aXX" + EX”, en- 
tonces 


a=(YX7 -E¿XDD7! a -amex?D”! (15) 
La matriz de segundos momentos del vector (a” — aJD!”? es igual a 
MD'Ya* — aY(a* — ayD!” = 
= D'?D-"xXMPEXTD” ip S PE,. 
Como las componentes de este vector son normales, ellas son independien- 
tes y => [(a:” — ayD*?1? € H,. Luego, en virtud de (7) y (9), 


(n —- 1x0 Y = |Y- aX? = 8? — [(a? — )x. 


Cerciorémonos ahora de que los vectores a” e Y — a” X (y, por consiguien- 
te, a” y o”) son independientes. En virtud de su normalidad es suficiente 
comprobar que los coeficientes de correlación entre sus componentes son 
iguales a cero o bien, que es lo mismo, que la matriz de segundos momentos 
centrales M(a* — oJ(Y — a*X) es igual a cero. Nótese que en virtud de (6), 


aX = YX XX” !UX e YX”D""X, 
30* 
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y el vector a*X se obtiene de Y mediante la proyección de Y sobre ..1AX]. 
El operador de proyección, definido por la matriz II = X7D”*X, posee 
propiedades evidentes: I1? = IL, BXTI = BX para cualquier matriz B que 
tiene r filas. Por eso, en virtud de (15), 


Mí(a* — a (Y - aX) = MD" XE (E - EXTD7*UX) = 
= D"'Xo% (E, - M=0. 
Demostremos ahora (11). En virtud de (7), 
Y —- a*X? = [E? — Ka? - 09XP = (El? — (a? - JD“, 
donde + 11? € Ha, => [(a* — a)D'?|? € H, (véase (10)). La afirmación 


(11) será el corolario de estas relaciones y del lema 1. 

Lema 1. Si y = nm + y, donde yn, y m son independientes, y € H,, 
nm: € H,, entonces n: € H,--. 

Demostración. Si se designa por (1) la función característica de la dis- 
tribución H;: p(t) = (1 + 21) 7 “?, entonces 

Me" = p(1)" > p(t) Me”?. 

Como gy(t) 4 0 en el eje real, entonces Me”* = p(1y 7”. El lema queda 
demostrado. 

El no desplazamiento de las estimaciones a* y (0*)” se deduce con evi- 
dencia de (10), (11) (Mn = / si y € H.). 

Nos queda demostrar la eficacia de la estimación 9” = (a”, (0?)”). Para 


esto debemos notar que la familia (5) pertenece al tipo exponencial, ya que 
(5) es representable en la forma (véase (2.15.1)) 


PUN) = (57) cxp( - Sy (MAX 0 + lx] a 
r+l 
= h(Y)jexp ( E ANO + vo), 
donde 
MY) = (0) 7", V(0)= - nino - > [aX 


ao) => UM) =(X Xx), k=1lL...7 


a (0)= y Url) = [Y 


Como las condiciones de los teoremas 2.15.1 y 2.15.2 aquí se cumplen, la 
estadística U = (UN(A), .. ., Ur + 1(A4)) (y junto con ella también 0”) es una 
estadística mínima suficiente completa. De aquí se desprende (véase el coro- 
lario 2.15.1) la eficacia de 0”. 
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La afirmación (12) resulta con evidencia de (10), ya que para X; ortogo- 
nales, la matriz D'”? es diagonal a los elementos |X%| dispuestos diagonal- 
mente. Bl teorema queda demostrado. 

Observación 1. Hotelling (véase [83] demostró que Dax* > o*/|Xy|? y 
la igualdad se alcanza tan sólo en el caso cuando X+ son ortogonales. Ahora 
bien, al planificar un experimento para valores dados de |Xx|, la elección 
óptima del regresor X consiste en hacer ortogonales Xg. 

Observación 2. Es interesante comparar la matriz de segundos momen- 
tos de la estimación 6”, con la frontera inferior para las estimaciones no 
desplazadas, la cual se define, en virtud de la desigualdad multidimensional 
de Rao—Cramer, por la matriz 1” *(0), donde /(6) es la matriz de informa- 
ción de Fisher: 


160) = VatO), 1460) = MO ¿z_ * ag > Lo LY; O) = Inf(W) 


Aquí hemos adoptado 0x = «x, k =1,...,1, 0,+1 = 0, Supongamos, para 
abreviar, que Xx son ortogonales. De la independencia de 6% se deduce que 
la matriz My(0” — 0)7(0" — 0) será diagonal a los elementos dispuestos dia- 
gonalmente: 


Molar — ay? A, eE 


Mato) — 7) m(PÉL 0) E, 
donde xf€ H.. 
Por otro lado, para la matriz F(0), en virtud de que 
rs ==> S (y — Haro) Xik = + (Y — oAxyXE, 


i=1 jul 


dad “dde m2 Yomo) = ¿(UP - 0), 


hallamos, cuando Kk = 1, 


Ixx(6) = Mo 7 Xu(Y — ió E 20 Z 


=-+ MX: EXT = — MCE, XaY* e o MAME JA, 
AN 
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cuando ¡ix ¿. Así que 


170) = 
0 OL 
[A] ) 
0... 0 e 
Por lo tanto, en la desigualdad de Rao—Cramer, 
Mo(0” — 0) (0* - 6) > 17 (0), (16) 


para las primeras r componentes de 0” se alcanza la igualdad. Para la com- 
ponente r + 1, la igualdad no puede alcanzarse (aunque asintóticamente, 
para n—«o, ambos miembros de (16) se comportan con igualdad), ya que 
la condición necesaria y suficiente del teorema 2.16.14 aquí no se cumple. 

Observación 3. La suposición acerca de la normalidad de e; se vuelve 
poco importante para las afirmaciones (10) —(12), si n es grande (en (11) 
es mejor realizar la normalización y afirmar la proximidad a la ley normal). 

Observación 4. El propio término “regresión” se refiere a la distribución 
conjunta de dos variables aleatorias £ y y y significa la curva 


800) = M(n/t e x) 
que también se llama regresión de y en £. Por ejemplo, si (E, 7) € P,2, 
y a (y1, y2), 0? = Joid, ij = 1, 2, entonces, como hemos visto en los capí- 


tulos anteriores, 2(x) = y2 + a (x — y1). Esta es una regresión lineal ele- 


mental. 

Observación 5. La suposición £; € %o.,: acerca de la igual distribución 
de Es cuando se conoce o”, puede ser debilitada. Podemos considerar que 
E, E Po, 7?, si os son distintas y conocidas. En este caso, designando por 

81 0 
o la matriz diagonal o = Ba e introduciendo nuevas variables 
O “o, 
El =to0 7? XxX" =Xo0"!, Y'= Yo"! (así que ¿/= Ei/01, x= x/01, 
yií = y:/01), llegaremos al problema de regresión 
Y" =aX'" + E' 
en el que conocemos el vector de observaciones Y* y el regresor X', 


¿” E %ogz,. Es fácil comprobar (el lector puede hacerlo personalmente) 
que es válido el siguiente análogo del teorema 1 
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Teorema 2. La estimación 
as Yo XxX UD'Y"!, D'=Xo0"?*X”, 
es la estimación eficiente no desplazada de «, 
(a* — aMD'Y'? € oz, 


z 2 
E y - y a) 
Y” = a X'| = > == € H,-.-. 
o 
dm 1 


Recurramos de nuevo al teorema l. Las relaciones (10)-—<X12) estableci- 
das en este teorema permiten construir conjuntos confidenciales tanto para 
distintas coordenadas de 9 como para el vector 0 en total. Por ejemplo, 


(n — rXko?y (n — rkoy ) = Es 
y si Xx son ortogonales, entonces 


Po (las — ax] < RT =1l-E€, (18) 


donde T,-(—fe/2, te/2)) = 1 -— €, Hr -r((4%, AA) = 1 - e. 
Supongamos que Xx son ortogonales. Designemos por a el ““subvector” 

del vector a, definido en el corolario 1. En virtud del teorema 1 es natural 

construir el conjunto confidencial para a valiéndose de la relación 


GQ - a)x? 
(n — rko”Y 
El valor de f;, correspondiente al nivel disponible 1 — e, se determina de 
manera conocida (véase el capítulo 3), o sea, mediante la distribución de 


Fisher F,»., con 1? n-— r grados de libertad. 
Si se conoce o”, el intervalo confidencial será definido por la relación 


la - a7X]? < he, (20) 


donde ha corresponde a la distribución H.. 

En los problemas de regresión puede resultar que también sea necesario 
estimar el valor de la superficie de regresión y = az” en un nuevo punto 
dado de antemano, z = (Zi, .. .. 2,) € R”. Pongamos y” = a*z*, Entonces, 
como antes, hallamos 


y = ys (a - a) a EXTD" TE do, 
a? = AzD"*zT => 6 Ta--. 


< fe. (19) 
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Esto da la posibilidad de construir los intervalos confidenciales para y. 

Cabe señalar que la determinación de la región confidencial para la 
superficie de regresión es “en general” un problema más complejo (compá- 
rese con [30)). La población de las superficies que entran en el conjunto 
confidencial será determinada por el conjunto confidencial para 0 construi- 
do, por ejemplo con ayuda de (10), (11) (véase el $ 3.8). Esto se expone 
más detalladamente en [30]. 

3. Verificación de las hipótesis con respecto a la regresión lineal. Aquí 
toquemos dos tipos de problemas. 

1) Supongamos que sabemos que la representación (1), (2) tiene lugar. 
Se necesita verificar la hipótesis de que 9 es igual al valor dado de 0” o 
que el conjunto de coordenadas 0x,, . . .. 0x, es igual al conjunto de 0£., 
. . «+» ÓO£,, mientras que las demás coordenadas se desconocen. 

El criterio para verificar tales hipótesis ha de construirse con ayuda de 
los conjuntos confidenciales (17)—-(20) (véase el $ 3.8). Supongamos, por 
ejemplo, que se necesita verificar la hipótesis MH, la independencia de Y 
respecto a X para una regresión lineal elemental, o sea, la hipótesis 
H, = l[a2 = 0). Entonces, de (18) (o de (14)) obtenemos el criterio de nivel 
l — e que rechaza H, si 


lac3| > te/20"/|X]. (21) 


En el caso general de la regresión (1) con Xx ortogonales, la hipótesis 
de independencia de Y respecto a X tendrá la forma H, = (a = 0), donde 
a =(0%, ... Ar), Xi = 1, y para su verificación se puede aprovechar el 
criterio 


xn > 22 
OA dl 


donde X y f. están definidas en (19) para [ =r— 1. 

También se pueden utilizar los enfoques del $ 3.15, donde fue examinada 
la verificación de la pertenencia de la muestra a una subfamilia paramétri- 
ca. Entonces llegaremos al criterio de relación de verosimilitud, el cual, 
desde cierto punto de vista, será semejante a (22). Si se conoce a”, entonces, 
el c.rv. para verificar H, = (a = O] tendrá la forma 


o" Ha* Xx]? > he, 
donde h, es la cuantila H,- |, de orden 1 — e. Este criterio será minimax 
(véase los $$ 3.9 y 3.10) para las alternativas correspondientemente se- 
paradas. 

2) Verificación de la hipótesis de que en la muestra (X, Y) está presente 
la propia regresión (1), (2). Por estas palabras entendemos la hipótesis de 
que para a y o cualesquiera tiene lugar la representación (1), (2), o sea, 
para a: y y cualesquiera es válida o” '(Y — aX) € to £.. Este es el proble- 
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ma de pertenencia de Y a una familia paramétrica. Pero como ya hemos 
señalado, las observaciones en Y no están igualmente distribuidas. Para 
reducir el problema al caso de distribuciones igualmente distribuidas (véase 
el $ 3.17), haremos uso de la afirmación siguiente, que completa el teore- 
ma 1. Consideraremos que Xx son ortogonales. 


Teorema 3. Sea C cualquier matriz ortogonal de orden n Xx n que con- 
tiene, en calidad de primeras r columnas, las columnas de la matriz 
XTD" "2 Entonces, el vector 5 = (Y — a" X)C tiene coordenadas indepen- 
dientes que poseen la propiedad 61 = ...=06,.=0,6/€ og, ¿i=r+>+wl, 

e A. 

Ahora bien, el problema se reduce a la verificación de la hipótesis de 
pertenencia de la muestra Úd,.+1, ..., Ó., de volumen 2 — r, a la familia 
do, .2 en términos generales (r observaciones se utilizaron para estimar o). 
Este problema fue examinado en el $ 3.17. Para obtener los valores de 6; 
es necesario, basándose en las muestras X e Y, calcular sucesivamente los 
valores de a”, Y — a” X y aplicar a Y — a” X cualquier transformación C 
dotada de las propiedades indicadas en el teorema 3. Si se conoce a, llegare- 
mos al problema de verificación de la hipótesis simple de pertenencia de 
do... No obstante, en este caso, para verificar la hipótesis que nos interesa 
también se puede utilizar el teorema 1, en virtud del cual 


(n — rkaY/0? € Hn--. 


Demostración del teorema 3. Si Z £ .41X7, entonces, las primeras r 
coordenadas del vector ZC forman el vector ZX7D”*? = 0, Como 
(Y - “4X)L XIX] y 6 =(Y - a" X)C, de aquí resulta que $, = ...= 
= 5, = O. Seguidamente, 


5 =(Y —- aX)C -— (a” — aJXC = q - 9D" "*xC, 


donde y = ¿GT = (m1, .... 7) => (a* - 9D'? = EX7TD” *? y, por consi- 
guiente, 5 es el resultado de la transformación lineal sobre y, 


A A 
15? = [Y — a*X? = |El? — [a — a*)XT? = 2 mí — (ml? = ] > nÍ, 
id " 
así que )] ¿f= Y] nf Esto sólo es posible en el caso cuando (6, , 1, 
inmr+l iar+1 
. . «y 61) es el resultado del giro del vector (9r+1, . . ., 9n), O bien, que 
es lo mismo, el resultado de la transformación ortogonal sobre (y,+1, . 
71m). En vista de que ou”? € o £,, el teorema queda demostrado. 
Ejemplo 1. En este ejemplo describiremos el aspecto matemático de un 
experimento físico con cuya ayuda fue descubierto el efecto de desintegra- 
ción del mesón p en dos mesones r (véase [85]). El resultado obtenido 
tiene carácter estadístico y en él se utilizó, en esencia, el modelo de re- 
gresión. 
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La investigación se refiere al estudio de la interacción de los electrones 
(e 7 ) y los positrones (e * ) en los haces que vienen al encuentro. Si la energía 
total de estas partículas 2£ se encuentra en el entorno del punto 
2E0 = 1019,6 MeV (fig.8), entonces, al producirse el “choque”, de las mis- 
mas, como resultado de la acción mutua se forman (a la par con otras) 
pastículas de dos tipos: mesones q y mesones *. La probabilidad de surgi- 
miento de pares de mesones ” durante la interacción de e* y e” conforme 
a la energía E, se describe con gran precisión por medio de la función lineal 
que presentamos en forma de (hipótesis 27,) 

pPT(E) = o + 4x1 x=E- Ep, (23) 
donde «do, a: se desconocen. 

Fue planteada la suposición (hipótesis H>) de que al desintegrarse los 
mesones y generados, también pueden aparecer pares de mesones x. Prácti- 
camente es imposible revelar este efecto de un modo directo, ya que se ha 
establecido que tal fenónemo, si ocurre, se produce muy raramente: no más 
de una vez en 10* desintegraciones de mesones p. No obstante, gracias al 
efecto de interferencia de este canal adicional de engendramiento de meso- 
nes xr, con el canal principal, la probabilidad de que se produzcan dichas 
partículas será igual no a (23) sino a 


PE) = [00 + a1x] É + Dn A | (24) 


(al igual que en (23), ésta es una aproximación muy exacta de una fórmula 
más compleja, basada en el hecho de que el intervalo de variación que 
se examina, O sea, x = E — Ep, es pequeño en comparación con Ep). En 
esta igualdad, los coeficientes b;,, al igual que a,, se desconocen, pero d 
se conoce. 

Para establecer cuál de las dos relaciones, (23) 6 (24), tiene lugar en 
realidad, se ejecutaron n = 20 experimentos con distintos valores de energía 
E, ..., Exo- 

Los resultados de los experimentos (véase la tabla 1 y la fig. 8) son 


Y, 
100 
6 


o 1,00 1,0) 1,02 1,03 1,04 2E 


Fig. 8. Las curvas representan las estimaciones de las líneas de regresión para las hipótesis 
H, y H.. 
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las cantidades N,, i¡ = 1, ..., 20 de interacciones de e* ye”, y las cantida- 
des »; de pares de mesones  engendrados con energía E,. En cada uno 
de los experimentos efectuados, los números ÑN; y »; son bastante grandes 
(N; es del orden de 10%). En vista de que cuando N,, es fijo, el número 
y de pares de mesones r tiene distribución de Bernoulli B,/(p = pi"(E¡) 
en la hipótesis H,, y p; = pi*(E;) en la hipótesis A»), entonces, utilizando 
la aproximación normal, podemos considerar, con derecho, que tiene lugar 
la representación 


vi 


Yi 5 y =P + Él £, € o. 


Tabla 1, Tabía de los daros experimentales 


1 
2 
3 
4 505,40 1117 
p 506,62 1185 
6 507,66 1539 
7 508,40 1036 
8 508,90 1057 
9 $09,40 989 
0 


ad 


509,90 


(en el sumando £, también entran los ruidos eventuales (fondo)). En virtud 
de (23) y (24) tendremos dos posibles variantes de regresión: 


1 
p= 2 5 Y (2), Veo) =x",k=0, 1 (25) 
hipótesis HH) y 
3 
x* 
pi = axvr(X), Ye(x) = ,» k=0,1,2,3 (6) 
(hipótesis F7). 


Al variar las hipótesis, los valores de v/cambian muy poco; éstos pueden 
ser apreciados muy exactamente y podemos considerar que son conocidos, 
Entonces, basándose en al teorema 2, la distribución de la estadística 


A 2 
a [Y - | = ), € - Fabero) jo (Q7 
Xk [1 k 
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será Hi, -», donde r es el número de parámetros sujetos a estimación «g 
(r = 2 en la hipótesis FH,, y r = 4 en la hipótesis PH). 

Tras realizar los cálculos necesarios conforme a las recomendaciones 
del teorema 2, obtendremos, para la estadística (27), los valores siguientes: 
en el primer caso (r = 2) xi = 36,8, y en el segundo (7 = 4) x3 = 19,0. Los 
niveles significativos realmente alcanzables (véase el $ 3.4) del criterio 
xx” > ce para verificar las hipótesis H, y H2 (como principales) constituirán 
His((0, 36,8) = 0,9944 y His((0, 19,0)) = 0,731. 

Con otras palabras, la suposición de que falta el canal adicional de en- 
gendramiento de pares de mesones * es rechazada por el criterio fundado 
en la estadística x% con nivel de significación igual, por ejemplo, a 0,99. 
Al mismo tiempo, la suposición acerca de la existencia de este canal con- 
cuerda bien con los resultados experimentales. 

Hablando más exactamente, en este problema deberíamos verificar dos 
hipótesis paramétricas compuestas, correspondientes a las suposiciones (25) 
y (26) para los valores de las probabilidades de aparición de pares de meso- 
nes r. Si utilizamos el criterio de relación de verosimilitud, éste, como es 
fácil comprobar, se basará en la diferencia de las estadísticas 1 correspon- 
dientes a los modelos (25) y (26) y, por lo tanto, sus resultados serán aproxi- 
madamente los mismos. 

4. Estimación y verificación de las hipótesis al existir relaciones lineales. 
Examinemos, como antes, la regresión lineal (1), (2), pero suponiendo que 
las coordenadas del vector a están ligadas mediante s < r relaciones lineales 


y 
SS artr=0C, [=1l,... s. 
kui 


En forma matricial estas relaciones pueden escribirse del modo siguiente: 
QGÁ =C, (28) 


donde A es una matriz de orden r X s. Supongamos que A es de rango s. 
En este caso podríamos expresarlas s variables (digamos, Ar-s+1» +... 
. «, Ar) a través de las demás (o sea, a través de a, ..., -- 5), sustituir 
los valores obtenidos en (1), (2) y volver a obtener el problema estándar 
de regresión lineal (pero con regresor modificado). 
Pero para la exposición ulterior trataremos de resolver este problema 
de un modo algo distinto. Recurramos a la demostración del teorema 1. 
El subespacio .a/ de valores a, definido por las relaciones (28), separa en 
Z1X] el subespacio de dimensión s y de valores aX, el cual designaremos 
por -%4 [X]. Es evidente que la estimación « € x/ ahora puede efectuarse 
a base de los mismos procedimientos que hemos utilizado en el teorema 1. 
La estimación necesaria ay € </será determinada, al igual que en el teore- 
ma 1, con ayuda de la proyección «aX del vector Y sobre -4 [X]. Ahora 
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bien, a la par con la relación (Y — a*X) .L -(A)] tendremos la relación 

(Y — aX) - 4 [X] que define univocamente «4. Para obtener el propio 

valor de «4 es más cómodo hacer uso del enfoque analítico, o sea, aplicar 

el método de multiplicadores indeterminados de Lagrange para encontrar 

mín |Y— aX]? a condición de que «A = c. Para esto debemos resolver las 
a 


ecuaciones 
añ [tr - ax? + aa - oy] =0 (29) 
(utilizamos los multiplicadores A;,, . .., A, que forman el vector A y que 


corresponden a las condiciones (28)). En vista de que |Y — aX? s (Y — 
= aX NY — aX), la segunda de las ecuaciones (29) adoptará la forma si- 
guiente: 

-2YX" - 2aXX7 + M4 =0. 
De aquí hallamos 


añ = FXTD”? => MATD"!= 0" -> MD"! 


En virtud de (29), c = aj A = a"A — 1 147D”'A. Como la matriz D está 
definida positivamente, y el rango Ue A es s, el rango de la matriz 
B = D7*2A también será s, y la matriz B7B = A7D”'A también estará 
positivamente definida (véase el punto 1). Por consiguiente, 
a 5 A =(c- a*AJDA, 
así =a" +(c- a A)JDAATD7?, (30) 


donde suponíamos, para abreviar, Da = [47D”'A]7!. 

El lector puede comprobar que hemos obtenido la e.v.m. del parámetro 
a: a condición de que «4 = c. Ese mismo resultado (30) también se puede 
obtener de las consideraciones geométricas, utilizando las relaciones 
aX € 44 [X] y la ortogonalidad 

(Y -a1x) 1-4, 3D 
(0% — YX = (Y — aX) - (Y - 0400] L 41M. 

Recurramos ahora al problema de verificación de las hipótesis lineales. 
La hipótesis A, respecto al parámetro « se llamará hipótesis lineal si su 
forma es HH; = (a4 = c), donde las matrices A y c han sido definidas ante- 
riormente. 

Inmediatamente podemos señalar que introduciendo el nuevo paráme- 
tro fB = a4., donde 4. es cualquier matriz no degenerada, cuyas s primeras 
columnas coinciden con A, reduciremos el problema a la regresión 

Y=BEX'"+E X'=A7'X, 


y a la verificación de la hipótesis $ = c, B| = (Br, . . .. Bs) (véase el punto 2). 
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También es natural partir de las consideraciones siguientes. Cuanto más 
se distinga a4 de c, tanto más lejos permanecerá a.X' de .4[X] y tanto 
más se distinguirán los puntos aX y a*X de a:4YX € -44 [X]. Por eso es natu- 
ral suponer que la base del criterio para verificar H, es la distancia que 
separa aX de a” X. Si la hipótesis A, es cierta, entonces, en virtud de (31), 


(04 - a)? = Y — 04M? — |Y - a*x1?. (33) 


En virtud de (30) (sustituyendo c por a4), ax — a” es el resultado de la 
transformación lineal sobre ax — a”. Por eso (a1% — a) X no depende de 
Y — aX (véase el teorema 1). 

Seguidamente, en virtud de (30), 


(04 - aX? = (04 — a9)XX (as — a”) = 
= (c - a*A)Dalc - a*A) = (a* — JADAA (a — a)”. (34) 
En vista de que 
(a — aJA = EX TD” 'A E Bozap oa = dodo 
en virtud de (34) y del $ 2.2 (punto 4) 


y l(a4 — a*)X]* € Ha. (35) 


De lo dicho y del teorema 1 resulta que 


llora — A = JP xr -1€Fsn-.. (36) 


Y-eXP  |Y-0X] 


Las relaciones (35) y (36) nos permiten construir los criterios (basados en 
la utilización del alejamiento de a*.X respecto a «4X) para verificar la hipó- 
tesis H, en los casos cuando o” se conoce y se desconoce, respectivamente 
(véase el capítulo 3). 

Cabe señalar que H, es la hipótesis de pertenencia de a a una subfamilia 
paramétrica (al existir el parámetro obstaculizador o?, si a? se desconoce), 
y las estadísticas (35) y (36) no son otra cosa sino las estadísticas de la 
relación de verosimilitud (véanse los $$ 3.10 y 3.15). En efecto, supongamos, 
por ejemplo, que desconocemos a”. Entonces (véanse (5) y (8), 


2 
sup JAY) = sup(V2r 0)" rep[ - E = 


=(V2xr ¿y tap[ - | s (var EA ia 


El valor de sup Jo(Y) se calcula exactamente igual. Sólo es preciso señalar 
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que la e.v.m. para a, en el caso de 20: € % será aa, y la ev.m. para o” será 


igual, así como en (8), ay [Y — a4X1?. Por eso 
sup JAN) = (Y IEA) en 


hop SAY) ES |Y = a*X]” 
sup fe(Y) [Y — aX" 
ao 
y, por consiguiente, la estadística del criterio de relación de verosimilitud 
equivale a (36). 

Si v? se conoce, como base del criterio para verificar H, se puede adop- 
tar la relación (35). Análogamente a lo expuesto más arriba, el lector puede 
convencerse de que el resultado obtenido también es el criterio de la relación 
de verosimilitud. Como este criterio es invariable respecto a la sustitución 
del parámetro (véase el $ 3.10), entonces, en virtud de la advertencia y las 
afirmaciones de los $6 3.9 y 3.10, se puede afirmar que el c.r.v. 


(4 — aX? > 0h, 


donde h, es la cuantila de orden 1 — e de la distribución H,, la cual cons- 
tituirá el criterio minimax de nivel 1 — e para verificar A, frente a las alter- 
nativas separadas respectivamente. 

Lo dicho más arriba y los resultados de los capítulos 2 y 3 (en particular 
el 5 3.15) dan razones para considerar que los criterios (36), al igual que 
la estimación (30), también poseen propiedades de optimización. Aquí no 
nos detendremos más detalladamente en este material. Una exposición más 
completa de los problemas de regresión se ofrece en (83). 


$ 4. Análisis de varianza 


Los problemas de análisis de varianza que se exponen en este párrafo perte- 
necen, en su esencia, a los problemas de regresión. En los últimos de ellos 
hemos estudiado la dependencia de las observaciones del factor numérico 
x que podía adoptar cualesquiera valores dados de antemano Xy, ... 
« « «  X», y a cada uno de ellos le correspondía una sola observación. En 
los problemas de análisis de varianza suele estudiarse la influencia que ejer- 
cen únicamente los factores discretos (uno, dos o más) que pueden tomar 
exclusivamente un número finito de valores. Para cada uno de estos valores 
disponemos de un conjunto de observaciones (de una muestra). El análisis 
de varianza une un grupo de procedimientos estadísticos basados en el aná- 
lisis de las desviaciones estándar y destinadas a verificar diversas hipótesis 
y estimar los parámetros relacionados con la influencia de los factores. Los 
fundamentos del análisis de varianza fueron establecidos por Fisher. 
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1. Problemas de análisis de varianza como problemas de regresión. El 
caso de un factor. Supongamos que se dan r muestras independientes 


Y, => Gn, e... Y 15), ...., Y, = (yr, .. yrm,) 


de volúmenes »;, .. ., mn, de las poblaciones normales: Y, E Pao. Se su- 
pone que Jas observaciones Yx, Kk = 1,..., r se han realizado con diferentes 
valores de cierto factor cuya importancia nos interesa y que la influencia 
de este factor se refleja en el valor de la media «rx. Se supone, además, 
que el valor de la varianza o? es el mismo para todas las muestras y, por 
regla general, es desconocido. Los problemas de análisis de varianza com- 
prenden la verificación de las hipótesis referentes a los valores «1, .. .., Ar 
y, en particular, de la hipótesis acerca de la homogeneidad de a, =...= 
= Q, = q (en el $ 1 hemos examinado este último problema), así como 
las estimaciones de los parámetros ax y de su variabilidad, 

Al igual que los problemas de regresión, el análisis de varianza se aplica 
ampliamente, sobre todo en la sociología, la agricultura, la biología y la 
medicina. En calidad de un problema muy típico para aplicar los métodos 
del análisis de varianza se puede nombrar, por ejemplo, el problema de 
aclaración de la dependencia que existe entre el contenido de colesterina 
en la sangre de una persona y su profesión. 

Los problemas de análisis de varianza enunciados anteriormente son 
casos particulares de los problemas de regresión lineal. En efecto, las obser- 
vaciones Y: pueden representarse en la forma 


Yxi = 0 + Er, EnE tor, k=1...ni=1l,.... Ak. (1) 
Formemos el vector 
Y = ((Y1, ..., Yimi Y21» -- +) Y2mi ++ -3 Yris - >» Ym,) 


y el vector E observando esa misma regla. Entonces, las relaciones (1) pue- 
den ser escritas en la forma matricial Y = aX + E, donde X es una matriz 


de dimensión rx n, n=n,+... + mn, que tiene la forma siguiente: 
l1...1f0 0...O| [0 0...0 
00...0|l 1... 1 0.0...0 
X=j00...0j0 0...0 0 .0...0 


Es evidente que las filas de esta matriz (vectores X,) son ortogonales. La 
hipótesis Hf; = [as = 2 =... = q) puede escribirse del siguiente modo: 


aÁ =0, 
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donde A es una matriz de dimensión r x (r — 1): 


1 0... 0 
0 1. 0 
Ads 
0 0. ] 


Es evidente que el rango de A es r — 1. 

Vemos que la verificación de la hipótesis principal A, del análisis de 
varianza no es otra cosa sino el problema de verificación de la hipótesis 
lineal para la regresión. 

Vamos a aclarar qué son las estimaciones eficientes para a: y o” halladas 
en el teorema 3.1. En nuestro caso |Xxj? = nx, la matriz D = XX? de orden 
r X r tiene la forma 


nm 0 0 

A ai 

0 0 ... Hr 
e ISE z 
"a, XO e Y ki E Yk., (3) 


io! 
(n- PY > Y - aX = > Don - Je. Y e QUY). 


En este caso, aj, . . . ar, (a?) son independientes. Los intervalos confiden- 
ciales para los parámetros ex, o”, así como sus funciones, se construyen 
al igual que en el $ 3. 

Para verificar la hipótesis lineal (2) también debemos calcular la e.v.m. 
aa al existir la condición (2) (véase el punto 4 del párrafo anterior). Aquí, 
el método más simple consiste en utilizar el enfoque expuesto al principio 
del punto 4 del párrafo 3, y en expresar «,, ..., a, a través de variables 
independientes. En nuestro caso existe una sola variable independiente: su- 
pongamos que ésta sea a, = p, y 4% = (14, ... pu ) donde y” minimiza 


YF—=(a.. mx= > > xi — pY. 
P ku! ¿mi 


Es evidente que 


31 —8030 


482 CAP. 4. PROBLEMAS DE DOS MUESTRAS Y MÁS 


Y-oaxXP= Y Y du- Y Q() = 


ksl ¿u1 


r n he e ó 
= pa 20 — Y + Yx. — Y.) = 


= y $ (e: - Y.) + y nx. — Y) 


kual ¡=1 


(la suma de los productos mixtos es igual a cero, puesto que 2) (yx — 
¡j=1 

= Y.) = 0). Si la hipótesis FH, es cierta, entonces, en virtud de (3.33), (3) 

y de la igualdad recién obtenida, 


llaá — aX? = Q(Y) - OY) = br mOs - 7 = QS). 


En virtud de (3.36), al cumplirse A, obtenemos Q:(F//Q(Y) € F.--1.1-,, 
lo cual no da la posibilidad de construir el criterio Q(Y'YQUVN > fe Ue 
es la cuantila de F,- ¡,»-, de orden 1 — €) para verificar F,, el cual será 
el c.r.v. Si se conoce o?, el c.r.v. tendrá la forma 


Q0(YN) > hs 


(A, es la cuantila de H,- ,) y será el criterio minimax para las alternativas 
separadas respectivamente (véase el $ 3.9). 

2. Influencia de dos factores. Enfoque elemental. En los problemas de 
este apartado se investiga la influencia que los factores de dos tipos ejercen 
sobre los resultados del experimento. Con arreglo, digamos, a la agricultura, 
esto puede ser el estudio de la influencia que ejerce la composición del 
suelo (el factor 4 adopta r valores) y el método de cultivo (el factor B 
adopta s valores) sobre la calidad de la cosecha. 

Aquí las observaciones pueden representarse en la forma 


Yeti = 0x1 + Extiy  Exu € Poo, (4) 
O A E E A E O A 


y el modelo sometido a investigación, en esencia, no se distinguirá en nada 
del modelo (1) examinado en el punto 1. Por consiguiente, aquí también 
son aplicables todos los resultados del $ 3, pero su aplicación directa es 
más voluminosa. Ya de por sí es voluminosa la propia presencia de índices 
triples. Para simplificar algo el problema, pongamos na; = 1; esto nos per- 
mitirá eliminar uno de los índices (índice ¡en (4)). Además, en este apartado 
proponemos un enfoque elemental algo distinto, que, independientemente 
de los teoremas del $ 3, permitirá obtener las afirmaciones necesarias para 
la verificación de las hipótesis fundamentales. 

Así pues, examinaremos las muestras Yx; = yx, de volumen unitario, de 
tal modo que el conjunto de datos experimentales Y aquí será la matriz 
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r x s de los números yx: que determinan el resultado del experimento bajo 
la influencia del k-ésimo factor A y el /-ésimo valor del factor B. Esta matriz 
puede interpretarse como r muestras (filas) de volumen s, correspondientes 
a distintos valores del factor A, o bien como s muestras (columnas) de 
volumen r, correspondientes a distintos valores del factor B. De acuerdo 
con esto, más adelante precisamente tendrá lugar la agrupación de las ob- 
servaciones. Pongamos 


Ss r 
1 Dont ur Y 
Y => : dl y. =>5 Yki, Y = a Y kt. 


kam1 k,! 
Es válida la identidad 
QU) = pr (ya — YY = OY) + QA) + QA, (5) 
donde 


QuY) =s 2 Ox. — YY, AY) =r 2 CG. - YY, 
OM = 2 (Ya — Ye. — Yu + YY. 
Supongamos que la influencia ejercida por los factores es aditiva, o sea, 
existen a; y b, tales que 
ar=0+byk=a1...,nld=1l...S8. (6) 


Es evidente que Q, determina la variabilidad de los valores a; (o sea, 
está relacionada con el factor A), O, determina la variabilidad de b, (factor 
B), y Q3 es una suma que se origina absolutamente por casualidad. También 
es evidente que 


Q(Y + a) = Q(N), ¡=1, 2, 3. (7) 

Teorema 1. 1) 
Q(N/0 € He-na- 1- (8) 
2) Si es cierta la hipótesis Ha = [ar = ... = a, = a), entonces Qi(Y) 


no depende de QA Y) y CIN), QU(V)/0 E H,- ,. Una afirmación análoga 
tiene lugar respecto a Or, y la hipótesis Ha = lb, =...«< bh, = b). 

3) Si es válida la hipótesis H, = [as = a), todas las formas cuadráticas 
Qi, Q2 y Q» son independientes. 

Demostración. Pongamos, sin limitar la generalidad, o? = 1. Entonces 


_laxay, si (5 7) (1k, ), 
Mymyu = (3 +15 (1/)=(k 0. 


31” 
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De aquí se deduce que 


(uu) (pu) = (Qe) (Qu) +7 


donde m es el número de sumandos iguales en las sumas )) y 2,. Utilizando 
rn 
esta igualdad, ahora es fácil obtener que 
My: — YO.1 — Y) = (az. — Aa.) — 2) = (ax — aXbr — b) O) 


en caso de acuerdos naturales respecto a las designaciones «x., Q.1, Q, a, 
b. Si es cierta la hipótesis Ha = [a = ... = a, = a), la esperanza matemá- 
tica en (9) es igual a cero. Como en este caso M(Yx. — Y) = ax, — a =0, 
el hecho establecido quiere decir que el conjunto de variables aleatorias 
[Yx. — y) no depende de (y.: — y). 

Análogamente establecemos que para cualesquiera k, /, 1 


M(yu — Ye.Xy: — Y) = 0. 


Esto quiere decir que la población (ys. — Y) tampoco depende de 
lyxi — Yx. — Y.: + Y). Esto significa, a su vez, que al cumplirse Hu», Q.(Y) 
no depende de O»(Y) y Ox(Y). El hecho de que Q,(Y) € H... ,, se deduce 
del lema de Fisher ($ 2.32). 

Igualmente sucede cuando se cumple la hipótesis Hg. No obstante, si 
es válida la hipótesis A, (o-sea, si son válidas Hu y Hp), es evidente que 
los tres conjuntos de variables aleatorias mencionadas más arriba serán 
independientes. Esto significa la independencia de Q.(YV), CAY) y Ox). 

Nos queda hallar la distribución Q,(Y). En vista de que esta distribu- 
ción no depende de ax y b;, podemos considerar que ax = b; = 0 para todos 
los K y | y, por consiguiente, se cumple H,. Entonces, de la definición Q( Y) 
resulta que Q(Y) € H.,- 1. Además, es válida (5), donde Q0,(YN) E H.- 
y O:(Y) € H,- ¡. Nos queda utilizar la independencia Q(Y) y el lema 3.1. 
El teorema está demostrado. 

Con arreglo a los problemas del punto 1 también se puede aplicar un 
enfoque análogo. 

Del teorema 1 se deduce la posibilidad de construir los siguientes proce- 
dimientos estadísticos; 

1) Estimación de los parámetros ax — 41, bi — by, a? (los números ax 
y b, en (6) han sido determinados con una exactitud de hasta el último 
sumando) con ayuda de las estimaciones Yk. — Y, Yi— Y y (o?) = 
= QA(YY(r — Ds — 1). Como, de hecho, las investigaciones realizadas an- 
teriormente coinciden con lo que hemos hecho en el $ 3 y en el punto 1 
de este párrafo, las estimaciones mencionadas serán eficientes. Los interva- 
los confidenciales para o”, ax — a; pueden ser construidos mediante las rela- 
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ciones (8), 
Yx. — Yi. — (Ax — 01) E Po,20?/3, 
Ya. — yi — (0x — aj) a 


2031(Y) 
s(r = 1Xs — 1) 


(para b: — bj, todo ocurre análogamente). 

2) Verificación de la hipótesis Ff4 con ayuda del criterio (Q,/03 > fe. 
El nivel del criterio constituirá | — e si f, es una cuantila de orden 1 — e 
de la distribución F,-1.4-- 1-1)» 

El criterio para verificar Ha: Q2/03 > f¿ tendrá una forma análoga, 
donde f. es una cuantila de orden 1 — e de la distribución F,- 1.(-- 1) - 1). 

3) Verificación de la hipótesis H, con ayuda del criterio 


Q + Q 
a =% 


de nivel 1 — e, donde f; es una cuantila de orden 1 — e de la distribución 
E... s-2,(r-1Ms- 1)- 

Los problemas del análisis de varianza se examinan más detalladamente 
en [82] y [83]. 


$ 5. Reconocimiento de imágenes 


En este párrafo examinaremos brevemente un grupo de problemas para 
cuya designación, además del nombre “reconocimiento de imágenes”, a ve- 
ces también se utilizan los términos “clasificación” y “análisis discri- 
minante” ”, 

En el $ 3.1 hemos examinado el siguiente problema de verificación de 


r hipótesis simples. Se dan las distribuciones P,, .. ., P, y la muestra X 
de volumen rn. Es preciso determinar cuál de las hipótesis 

H, > (X € Py) (1) 
es cierta. 


Sin embargo, en los problemas prácticos, las distribuciones P, a menudo 
se desconocen, y en cuanto a ellas sólo podemos juzgar a partir de las 
muestras. 

Así pues, supongamos que tenemos r muestras XA, = (Xp, . - . Xin), 
¿=1,...,r, de volúmenes ?,, .. ., +, respectivamente, que corresponden 


* Cube señalar que los últimos dos términos también se usan para designar otros proble- 
mas, por ejemplo, aquellos en los que se conocen las distribuciones P, en (1). 
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a r distribuciones desconocidas P,, ..., P,, y supongamos, además, que 
tenemos la muestra X. Es necesario resolver otra vez el mismo problema: 
determinar, cuál de las hipótesis (1) es cierta. Con otras palabras, es necesa- 
rio establecer cuál de las muestras Xi, ..., X, es la prolongación de la 
muestra X. Este es precisamente el problema de reconocimiento de 
imágenes. 

Para simplificar la exposición nos limitaremos a estudiar el caso de 
r= 2. 

1. Caso paramétrico, Al principio supongamos que P, pertenece a cierta 
familia paramétrica (Ps) que satisface la condición (A,), o sea, Xi € P,,, 
A12 EPo,, XA E Ps para ciertos 01 + 02 y 0 = 01 O O = 02. La primera de 
estas afirmaciones corresponde a la hipótesis H, = (X € Po, ), y la segun- 
da, a la hipótesis A: = (X € Pa, ). 

Supongamos seguidamente, también para simplificar la exposición, que 
los volúmenes n,, rn y n de las muestras son iguales: 7 = hh =R, 

Examinemos la muestra unida (X¡, X2, X) y representémosla como una 
muestra de volumen n formada por las observaciones (Xy;, X2;, Xi) y pertene- 
ciente a la distribución Po Xx Po, X Po que tiene una densidad 
fe We.Oo)Ys0oO dependiente del parámetro 6 = (6,, 62, 6). Es evidente 
que la función de verosimilitud de la muestra (XA, X2, X) será igual a 


JA, XA, A) = LAVA. 


Hemos llegado al problema de verificación de la hipótesis FH, acerca 
de que el parámetro 0 se encuentra en la “curva” O = 0, frente a la hipótesis 
alternativa Hr acerca de que Ó se encuentra en otra “curva” 0 = 0,. Este 
es el problema de verificación de la hipótesis de pertenencia a una subfami- 
lia paramétrica (véase el 5 3.15), pero en el caso cuando la hipótesis alterna- 
tiva significa la pertenencia a otra subfamilia paramétrica. Bl examen de 
este problema es análogo al expuesto en el $ 3.15, pero en cuanto a su 
dificultad técnica sale fuera del marco de este manual. Aquí nos limitare- 
mos a describir brevemente, para el caso del parámetro unidimensional 0, 
la esencia del resultado. Esta esencia es completamente análoga al conteni- 
do del $ 3.15: si el parámetro 9 ha sido localizado, o sea, si los puntos 
01 y 6, están situados en el entorno de cierto punto Go, |61 — 62] > b/Vn 
y si la familia (Ps) satisface en el punto 6, las condiciones de regularidad 
(RR), entonces, el criterio de la relación de verosimilitud 


sup FAY e (AVILA) 
e (2) 
sup FX 00 (A 


será, cuando n — oo, asintóticamente minimax para verificar H, frente a 
Ha. 
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La limitación ”n, = rm = n no tiene importancia. La misma se elimina 
al igual que en los planteamientos del $ 1. 

2. Caso general. En el caso general, cuando no hay razones para suponer 
que X; están relacionadas con una familia paramétrica, es posible un enfo- 
que general basado en las mismas ideas que hemos utilizado al construir, 
en el $ 2, los criterios de homogeneidad. En este caso el criterio m para 
verificar Ff, frente a Ha será una función de tres muestras, así que 
x= T(X,, X2, X) será la probabilidad de que se acepte ££ para (X,, X2, 
X) dadas. Al igual que antes, el criterio no randomizado es definido por 
la región crítica Q C 2"m+m+n en el espacio de los valores de (X,, Xa2, X). 
Por nivel de significación del criterio se entiende el número 


l-e= inf P xP2xPi((X,, X2, X) ¿ 0, 
Peste? 


donde %es la clase de distribuciones admisibles. El valor 


BP, P2? =P, XP x Px((A,, XA2, XA) € 0), 
P.E2 PES 


es la potencia del criterio en el punto (P,, P.). 

El criterio r se llama conciliable cuando 8,(P,, P2) — 1 para n, > co, 
n3 >, n-=> 09 y para cualesquiera P, x P2, P,€% P2€ 4 

Como base para construir los criterios conciliables se puede utilizar el 
hecho bien conocido, acerca de la aproximación de las distribuciones empí- 
ricas Py, y Px, para las muestras X, y X2 con P, y P,, respectivamente. 
Si d(P, Q) es cierta distancia entre las distribuciones, entonces, en el caso 
de la hipótesis Hz, la distancia d(Px,, Py) debe ser menor que d(Px,, Py). 
Por eso, en calidad de criterio se puede utilizar la desigualdad 


d(Px,, PY — d(Px,, Px)<c 


que al ser cumplida se acepta FM. El cálculo de tal tipo de criterios (de 
sus niveles de significación y de su potencia) suele acompañarse de grandes 
dificultades (comparadio con el tipo de problemas más simples dados en 
el $ 2). 

Utilizando la agrupación de observaciones, en el caso general podemos 
aplicar el criterio asintóticamente óptimo (2). Supongamos que tal agrupa- 
ción se ha hecho en las regiones Aj, .. .. Ám y QUE (Vir, - . -, Dim) Y (91, - 

. «», Ym) son las frecuencias con que en estas regiones caen las observaciones 
de las muestras X;, i = 1, 2, y X, respectivamente. Supongamos, además, 
que 9, = (011, . . ., 01m) son las probabilidades (P:(Ay), . . .. P:(Am)) de caída 
en las regiones A,, .-., Am para las distribuciones P,, ¡ = 1, 2, En vista 
de que para la muestra agrupada X;,, ¡ = 1, 2, la función de verosimilitud 
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fo(X0 es igual a fo(X) = TI 0%, el criterio (2) tendrá la forma siguiente: 
kl 


mn mm 
sup e (y2x + vx)din 02, + sup pa vir In0. — 


— Sup y (vir + vrJin01x — sup y v2x ln 92% > Inc, 
ku 


6 ke 
o bien ee 
+ yk 
vax + vr) in ZE E 4 
Y, (ua x) ETA 5 
kw ku) 


m 
> Inc + Y) (ua + 12) In HF A $ 


US “a+n. 
kl kl 


(3) 


Los planteamientos análogos también pueden efectuarse para r > 2. 


CAPÍTULO 5 


Enfoque de los problemas 
de la estadística matemática desde el punto 
de vista de la teoría de los Juegos 


En los $$ 1—3 se introducen los conceptos de juegos ordinario y esta- 
dístico. 

En los $5 4, 5 se examinan los métodos de búsqueda de las decisiones 
estadísticas óptimas 

El material expuesto en los $$ 6-8 está dedicado a la construcción de 
las reglas de decisión asintóticamente óptimas. 


$1. Observaciones preliminares 


En los capítulos anteriores hemos examinado una gran cantidad de proble- 
mas estadísticos diferentes, unidos, todos ellos, por la circunstancia siguien- 
te: el estadista, basándose en datos experimentales, ha de tomar cierta 
decisión. En la teoría de las estimaciones, tales decisiones pueden tener 
forma de estimaciones puntuales 0”, las cuales deben ser adoptadas en cali- 
dad de cierto parámetro desconocido 0. En la teoría de verificación de hipó- 
tesis estadísticas, las decisiones pueden adoptar forma de afirmaciones que 
especifican cuáles suposiciones referentes a la naturaleza del objeto sujeto 
a investigación son ciertas y cuáles son falsas. Dichas decisiones, al ser erró- 
neas, ofrecen pérdidas ulteriores. Por ejemplo, en la estimación de laborato- 
rio (realizada con la ayuda de una muestra), un error en cuanto al contenido 
de diversos componentes en el mineral, puede provocar la alteración del 
régimen óptimo de fusión y el empeoramiento de la calidad del metal fundi- 
do. Esto significa que experimentaremos pérdidas materiales, las cuales de- 
penderán de la magnitud del desacierto. Un error relacionado con la 
eficacia de un medicamento que se comprueba en un grupo elegido de en- 
fermos, evidentemente, también puede provocar pérdidas que, para mante- 
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ner la uniformidad del enfoque, consideraremos que podrán ser calculadas 
en ciertas unidades. También tomaremos este mismo acuerdo con respecto 
a otros problemas de estadística en los que las pérdidas no tienen un carác- 
ter material claramente expresado. 

Lo dicho nos permite destacar, en los problemas de la estadística mate- 
mática, los siguientes cuatro elementos comunes que, de hecho, determinan 
la esencia de cada problema concreto. Para simplificar la exposición, en 
lo sucesivo hablaremos exclusivamente de los problemas de una sola 
muestra X de volumen fijo n. 

1) Conjunto € cuyos elementos 0 € O determinan el estado del objeto 
sujeto a investigación. Si se conoce Ó no habrá necesidad de construir una 
decisión estadística. El conjunto O también se denomina conjunto de pará- 
metros, aunque 9 también pueden admitir una interpretación más amplia 
(por ejemplo, el conjunto O puede ser muy rico y coincidir con el conjunto 
de todas las distribuciones en cierto espacio 2”). 

2) Para obtener alguna información acerca de 6 desconocido, el estadista 
hace un experimento y realiza observaciones respecto a cierta variable ale- 
atoria cuya distribución depende de 6. Con otras palabras, el estadista dis- 
pone de la muestra X de la distribución P+. Como ya sabemos, de dicha 
muestra se puede extraer la información acerca de Pa y, por consiguiente, 
acerca de 0. Podemos considerar que se cumple la condición (40) (véase 
el $2.6) en cuanto a la correspondencia biuníivoca entre 0 y Ps. 

3) En los problemas de estadística siempre está determinado el conjunto 
D = (6) de decisiones que puede tomar el estadista. En la teoría de estima- 
ción, el conjunto D suele coincidir con 8, pero en los problemas de verifica- 
ción de hipótesis, el conjunto D es finito y el número de sus elementos 
equivale a la cantidad de hipótesis que se verifican. Si se conoce 6, la deci- 
sión 6 = a(6) se determina uniívocamente. Si se desconoce 0, la decisión 
ó ha de ser óptima en cierto sentido. Pero la optimización de las decisiones 
requiere que tengamos la posibilidad de compararlas. Para esto estimare- 
mos que se ha dado la función de pérdidas que determina cuantitativamente 
la consecuencia de la toma de decisiones. 

4) La función de pérdidas w(5, 0) está definida en D x O e indica las 
pérdidas que sufriremos si tomamos la decisión $, en tanto que el objeto 
sujeto a investigación, al que se refiere la decisión, se halla en estado 0. 
Consideraremos que w(5, 6) > O cuando 6 + yp(6), w(p(0), 0) = O. 

Si de los cuatro elementos mencionados retiramos el punto 2) acerca 
de los datos experimentales, obtendremos el objeto que constituye un juego 
ordinario de dos personas, juego en el que el estadista (investigador) desem- 


peña el papel del primer jugador, y la naturaleza, el papel del segundo 
jugador. 
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$ 2. Principales conceptos y teoremas relacionados 
con el juego de dos personas 


1. Juego de dos personas. 

Definición 1. Llámase juego de dos personas la terna (D, O, w) compuesta 
por los conjuntos D y € y por la función w que aplica D x € en la se- 
mirrecta (0, o). Los elementos ¿ del conjunto D se denominan estrategias 
(operaciones) del jugador 1, los elementos 9 € O se Llaman estrategias del 
jugador 11, y wes la función de pérdidas del jugador 1 (o la función de 
ganancia del segundo jugador) que determina las pérdidas w(ó, 0) que sufri- 
rá el jugador 1 si elige la estrategia 5, y las pérdidas que sufrirá el jugador 
II si elige la estrategia 60. 

El principal objetivo de la teoría de los juegos de dos personas consiste 
en elegir la estrategia Óptima del jugador 1 que a menudo identificaremos 
con nosotros. Para esto es riecesario ordenar de algún modo el conjunto 
de estrategias. No es fácil hacerlo, ya que las pérdidas w(ó, 0), con cuya 
ayuda debemos realizar la ordenación, dependen de dos argumentos, así 
que, para cada 0, la estrategia $ que minimiza w(ó, 0) será, hablando en 
general, su propia estrategia. 

Definición 2. Diremos que la estrategia 5, es mejor que 62, si 

w(51, 0) < w(62, 0) para todos 0 € O (1) 


y si existe por lo menos un valor de 0, € O para el cual w(3,, 01) < w(62, 01). 
Si sólo se cumple (1), diremos que la estrategia 5, no es peor que $2. 
La estrategia 9 para la cual 


w(50, 0) < w(5, 0) para todos 5 y 6 


la llamaremos estrategia uniformemente óptima (o uniformemente mejor). 

La estrategia uniformemente mejor asegura las pérdidas mínimas para 
todos 9. No obstante, por regla general, tales estrategias no existen. 

Señalaremos los tres enfoques siguientes para investigar las estrategias 
óptimas del jugador 1: 

— determinación de las estrategias uniformemente óptimas en las 
subclases; 

-— determinación de las estrategias bayesianas y minimax; 

— estudio de la población de todas las estrategias no mejorables (de 
la llamada clase completa de estrátegias). 

2. Estrategias uniformemente óptimas en las subciases. Con arreglo a 
los problemas de la estadística matemática se utiliza a menudo el procedi- 
miento siguiente (véase el $ 5). De algunas consideraciones no relacionadas 
directamente con las pérdidas (consideraciones de simetría, naturalidad del 
procedimiento, simplicidad de los cálculos, etc.) a veces es posible reducir 
la clase de estrategias sujetas a examen. Si esta reducción es tal que después 
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de ella existe una estrategia uniformemente óptima, entonces, asimismo se 
resuelve el problema de elección de la estrategia. Este enfoque debe ir acom- 
pañado de investigaciones de la cuestión acerca de si hemos perdido o no 
(tras reducir la clase) la posibilidad de obtener un resultado mucho mejor. 
Ejemplos de utilización de tal enfoque (aunque referentes a un objeto más 
complejo: a los juegos estadísticos) serán examinados en los dos párrafos 
siguientes. El lector ya sabe de ellos por los capítulos 2 y 3 donde hemos 
examinado las mejores estimaciones (eficaces) en la subclase de estima- 
ciones no desplazadas, así como los criterios uniformemente más potentes 
en las subclases de todos los criterios invariantes o no desplazados. 

3. Estrategias bayesianas. Estas surgen en los casos en que el segundo 
jugador elige su estrategia al azar, con cierta distribución (conocida o des- 
conocida) en 60. 

Para tener la posibilidad de examinar posteriormente las estrategias 
“aleatorias”, vamos a suponer que en O y D están separadas ciertas 
o-álgebras naturales de los subconjuntos $5 y %b. Entonces, en (O, 35) 
y (D, %5) se pueden definir las distribuciones Q y x*, respectivamente, así 
que (0, %, Q) y (D, %, x) serán los espacios probabilísticos. 

La designación de las distribuciones r y Q induce el espacio probabilís- 
tico (D Xx O, Hxe, T X Q), donde Hxe es la o-álgebra engendrada por 
los productos directos de los conjuntos de 45 y 55. La elección de las o- 
álgebras de %< y 4% debe ser tal, que se cumplan las dos condiciones si- 
guientes: 

a) % y Y contienen los conjuntos unipuntuales (5) y (0). 

b) La función de pérdidas w(S, 0) es medible con respecto a HhHxe. 

Definición 3. Las distribuciones rr en (D, %<K) y Q en (9, 5%) se llamarán 
estrategias mixtas o randomizadas de los jugadores 1 y Il, respectivamente. 

La distribución Q será frecuentemente llamada distribución a priori. 
El sentido de este término debe estar claro de los capítulos 2 y 3. Además, 
lo aclararemos adicionalmente en el párrafo siguiente. Los conjuntos de 
todas las estrategias mixtas de los jugadores 1 y II (o sea, los conjuntos 
de todas las distribuciones en (D, $5) y (O, $5) serán designados por D 
y Ó. En vista de que $5 y 4 contienen conjuntos unipuntuales, entonces 
D y Ó contendrán las distribuciones concentradas en un punto y, por consi- 
guiente, podemos considerar que D y Ó contienen las estrategias 5 y 9 que 
llamaremos estrategias puras, a fin de tener la posibilidad de separarlas. 
El acuerdo, según el cual designaremos con los mismos símbolos ¿ y 6, 
respectivamente, las distribuciones de D y 6 concentradas en un mismo 
punto Ú o 6, no provocará equivocaciones de ningún tipo. 

Ahora, las pérdidas W(*, Q) provocadas por el uso de estrategias mixtas 
serán definidas por la igualdad 


w(x, Q) = M.xow(5, 0) = jo (u, t)r(dudQld?). (2) 
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Así pues, a la par con el juego inicial podemos examinar el juego, (D, 
8, ») con la función de pérdidas (2), el cual se llama promediación o rando- 
mización del juego (D, O, w). 

Según el acuerdo adoptado escribiremos 

Wi), Q) = (5, Q), W(r, Que) => W(x, 0), 
w(6, 0) e w(5, 0), 
si rs), y Qs) son distribuciones concentradas en los puntos Ú y 6, respecti- 
vamente. 

Es evidente que la randomización del juego (D, €, w) significará el 
paso a un juego con conjuntos de estrategias más ricas, respecto al cual 
el par inicial es un juego “insertado” que se obtiene al examinar exclusiva- 
mente las estrategias puras de ambos jugadores. Como veremos más adelan- 
te, los problemas de ordenación de las estrategias en los juegos (D, O, w) 
y (D, O, %) se hallan fntimamente ligados. 

Definición 4. La estrategia  = rg, para la cual 


W(ro, 0) = inf w(x, Q), 


se denomina estrategia bayesiana, correspondiente a la distribución a priori 
Q 

Así pues, la estrategia bayesiana no es otra cosa sino la mejor estrategia 
* para Q dada en un juego promediado. 

La estrategia 6q € D, para la cual W(52, Q) = inf w(*, Q), se denomina 
estrategia bayesiana pura. 

Teorema 1. Si para Q dada existe una estrategia bayesiana mixta ro, 
entonces también existirá una estrategia bayesiana pura 592 tal, que 

w(S9, O) NN (ro, Q). 

La demostración es casi evidente. Designemos a = (xo, Q). Está claro 

que 
v(5 Q > inf w(, Q) > a. 


Si admitimos que (5, Q) > a para todas 5, entonces, realizando la me- 
diación respecto a 6 con ayuda de ro, obtenemos 


a = j w(u, Q)ro(du) > a. 


Esta contradicción demuestra el teorema. < 
Ahora bien, si se alcanza inf W(*w, Q), esto también se alcanzará en las 


estrategias puras. 
Si no se alcanza inf (5, Q), entonces no existirán estrategias bayesianas. 
5 


Bn este caso resulta útil el concepto de estrategia s-bayesiana que existe 
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siempre y la cual se define como una estrategia $9 para la cual 
Wo, Q) < 0 »(0 DO +e€ (3) 


para e > 0 dado. Sin embargo, en lo sucesivo, para simplificar la exposición 
nos limitaremos a examinar tan sólo los problemas que contienen las estra- 
tegias bayesianas. 

La cuestión acerca de la utilización práctica de las estrategias bayesianas 
es bastante delicada. Si la existencia de la distribución a priori se debe a 
cierto mecanismo físico real, este enfoque será indiscutible. Pero el enfoque 
bayesiano también puede ser justificado en los casos en que el mismo esté 
relacionado con la existencia de ciertas ideas, quizás subjetivas y no siempre 
bastante completas, las cuales, no obstante, no deben ser rechazadas. En 
el apartado siguiente (punto 4) se ofrece un análisis más detallado del asun- 
to relacionado con la utilización del enfoque bayesiano. 

4. Estrategias minimax, Si se carece de una información a priori respec- 
to a 6, al ordenar las estrategias es posible orientarse hacia la “peor” estrate- 
gia del adversario. Si eligemos la estrategia 5, las pérdidas máximas 
constituirán 


sup w(5, 9) = w(ó, 1). (4) 


Esta cantidad sólo depende de 5 y, al igual que los valores de w(ó, Q), 
permite ordenar ¿ E 
Definición S. La estrategia 5 se llama minimax si 


WS, 1) = inf w(6, 1) = w”. (5) 


El término minimax se forma a base de la unión de las denominaciones 
de las operaciones en el segundo miembro de la relación 


w(5, t) = mín máx w(6, 0). 


Es evidente que las estrategias minimax, al igual que las bayesianas, 
pueden, hablando en general, no existir. En este caso, de un modo análogo 
a (3), se puede introducir el concepto de estrategia e-minimax. En los plan- 
teamientos ulteriores partiremos del hecho de que en (4) y (5) se alcanzan 
sup e inf. 

En vista de que para cualquier 9 

w(S, 0) < w(5, 1) = w", 


la estrategia minimax ó se caracteriza por el hecho de que asegura las pérdi- 


das del jugador 1 en cantidad no mayor de w”. 
Definición 6. Los valores 


wo inf WS, 1) (w(5, f) = sup w(3, 6)), 
yw = sup w(1, 8) (w(, 6) = inf w(5, 0) 


8 2 JUBOO DE DOS PERSONAS 495 


se llaman, respectivamente, precio superior e inferior del juego. Si w* = w,, 
se dice que existe el precio del juego, igual al valor común de w” y w,. 

De lo dicho anteriormente y de las consideraciones de simetría está claro 
que el jugador 11, actuando análogamente al primero y eligiendo su estrate- 
gia 0 de las mismas consideraciones minimax, siempre puede asegurar para 
sí una ganancia no menor de w”. (Tal estrategia 0 sería más correcto lla- 
marla estrategia maximin, pero para ella utilizaremos el mismo término: 
estrategia minimax). Por lo tanto, si existe precio del juego, entonces, eli- 
giendo la estrategia minimax ó, aseguraremos para nosotros un resultado 
inmejorable desde el punto de vista siguiente: si el adversario elige 6, ningu- 
na otra estrategia nos causará pérdidas 6 menores de w, = w”. Es evidente 
que 

m5, O) = w” = w. 

En el caso general siempre w” > w,, ya que para todos ¿ y Q 
w(5, 1) > w(6, 6) > w(i, 6) y, por consiguiente, 

w” = inf w(5, Y > sup w(!, Ó) = w.. (6) 

Si w” > w,, entonces, la estrategia minimax $ se puede mejorar introdu- 
ciendo las estrategias mixtas. En esto consiste una de las finalidades princi- 
pales de estas últimas. 

Las estrategias minimax para un juego promediado (si ellas existen) las 
designaremos por r y Q, respectivamente, y pongamos 

vw” = inf sup "xr, Q) v = sup inf w(*, Q). 

Mostremos primeramente que, al promediar el juego, los precios supe- 
rior e inferior de éste se aproximan. 

Teorema 2. wW >vW >%W, >. 

La demostración de este teorema, al igual que la del teorema 1, es muy 
fácil. En vista de que la mediación del juego puede realizarse en dos etapas: 
primero por el conjunto D y luego por €, para la demostración es suficiente 
examinar tan sólo la promediación parcial (D, O, w) del juego (D, 0, w). 
Tenemos 

vw” = inf sup xr, 0 < inf supw(, 9) = w”, 


Como para todos r, 


wr, 0) = ¡ w(u, O)x(du) 2 inf w69, 0) = w(1, 0, 


entonces, inf w(”, 0) > w(!, 0), 
”= sup inf er, O > sup w(Y, O) = w,. 


La desigualdad w” > w, ha sido demostrada en (6). a 
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El hecho fundamental de la teoría de los juegos consiste en el llamado 
teorema del minimax, el cual afirma que para suposiciones muy amplias, 
los juegos promediados tienen un precio de w” = w, y para ellos existen 
estrategias minimax. 

Esta afirmación será enunciada más exactamente en el párrafo siguiente, 
en una situación más general, con arreglo a los juegos estadísticos. 

El juego inicial (D, O, w), sobre todo en el caso cuando D y O son 
finitos, por regla general no tiene precio. 

Ejemplo 1. Examinemos un juego elemental cuando los conjuntos D 
y 9 son bipuntuales, D = [6,, 62), O = (61, 62). Los valores de la función 
de pérdidas w(5, 6) se definen por la matriz Il w(8;, 0/31, i, f = 1, 2, la cual 
o 1 
1 Ol 
juego de adivinación, cuando el jugador 1 debe adivinar en qué mano el 
jugador 11 ha escondido una moneda. La adivinación significa una pérdida 
nula (w(S,, 01) = w(S2, 82) = 0), y el error, una pérdida igual a 1 rublo 
(w(81, 02) = w(S2, 01) = 1). Es evidente que aquí w(81, 1) = 1, w” = 1, 
w(+, 9) = 0, w. = 0, por consiguiente, el juego no tiene precio, y el jugador 
1 no puede garantizar para sí una pérdida inferior a 1 rublo. El propio 
concepto de estrategia minimax aquí es inútil. 

Examinemos ahora la promediación de este juego. Aquí las clases de 
estrategias D y O son la población de todas las distribuciones en un conjuto 
bipuntual. Es evidente que cada una de las distribuciones en D y O se 
describe por una probabilidad p y q de elegir las estrategias 5, y 61, respecti- 
vamente. Por eso se puede considerar que D = [0, 1], 8 = (0, 1]. Las pérdi- 
das del jugador 1 en este juego son iguales a 


supondremos que es igual a Esto corresponde, por ejemplo, al 


WWw, q) = pú — q) + q(l - p =p + q- 2pg, 

E _Ifp+1-2p=1-p para 2p<1, 

qe n= [e para 2p>1, 
”” = 1/2, 


De un modo análogo hallamos que Y, = 1/2. Ahora bien, el juego pro- 
mediado ya tiene precio y el primer jugador, eligiendo 6, y 52 con probabili- 
dad p= 1- p= 1/2, puede garantizar para sí una pérdida no mayor de 
1/2. Esta estrategia no puede ser mejorada, ya que el jugador 11 puede 
garantizar para sí esa misma ganancia, eligiendo q = 1/2. 

Pero si resulta que el juego promediado no tiene precio (lo cual puede 
tener lugar tan sólo en los juegos de estructura compleja especial), enton- 
ces, la promediación reiterada no dará ningunos resultados, ya que esta 
promediación repetida coincidirá, en esencia, con la promediación or- 
dinania. 
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Los enfoques bayesiano y minimax de la resolución de los problemas 
de juego tienen gran aplicación en la actividad humana cotidiana. El enfo- 
que bayesiano está orientado hacia la existencia de ciertas nociones, aunque 
sean aproximadas, del comportamiento del segundo jugador. El enfoque 
minimax está justificado en los casos en que debemos asegurarnos de una 
gran derrota. 

Ejemplo 2. Un estudiante se prepara para el examen. Supongamos que 
no es un estudiante ideal y que no ha tenido tiempo suficiente para repasar 
bien todo el material. Además, el objetivo de este estudiante consiste en 
obtener la mejor nota posible. 

En las condiciones descritas, el estudiante sólo puede estudiar perfecta- 
mente parte del material. Por eso, para él son posibles por lo menos dos 
vías: 1) estudiar en sobresaliente tan sólo las partes que, según la informa- 
ción disponible, el examinador pregunta con más frecuencia; 2) estudiar 
un poco todo el mateiral para asegurarse una nota buena o satisfactoria. 
La primera variante corresponderá al enfoque bayesiano, y la segunda, al 
enfoque minimax. 

Claro está que la estrategia uniformemente óptima aquí sería estudiar 
perfectamente todo el material, pero, según la condición del problema, tal 
estrategia no es posible. 

En las situaciones concretas, las estrategias minimax no siempre son 
racionales. 

Ejemplo 3. Supongamos que € =|[0, 1] y que el conjunto 
D = (61, 52) consta de dos elementos. La función de pérdidas se define 
por las relaciones (fig. 9) 


w(Ó1, 0) = l, 
w(Ó,, 9) pe 41 + Sd E 0). 


ww w(8,, 0) 


Fig. 9 


Aquí w(6, 1) =1, w(S1, 1) = 1 +e, w"= 1, y 5 será la estrategia 
minimax, aunque en caso de gs > 0 pequeños, para la ““mayoría” de los 
valores de 6, la estrategia 52 será mejor: w(62, 6) < 1 para 0 de la región 


1 ] | e es » as 
[e -3| >3 rá Para la “mayoría” de las distribuciones Q en 


32—8030 
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8 =[0, 1] (cuya masa no está concentrada en el entorno del punto 
6 = 1/2), las estrategias bayesianas también coincidirán con óz. 

Los conceptos de estrategia bayesiana y minimax están relacionados 
entre sí. La siguiente afirmación proporciona el método de averiguación 
de las estrategias minimax con ayuda de las estrategias bayesianas. 

Definición 7. La estrategia m se llama igualadora en el conjunto Oo C O 
si 

1) W(%, 6) = C a const, 0 € Oo, 

2) (xr, 6) < c para todos 6. 

Teorema 3. Supongamos que existe la distribución a priori O y su estra- 
tegia bayesiana correspondiente Ta, la cual es igualadora en el portador 
N¿ de la distribución Q. Entonces, + = xa es una estrategia minimax. 

Si No = O, la estrategia igualadora T hace “indiferente” el juego del 
segundo jugador, o sea, lo hace independiente de éste (compárese con el 
ejemplo 1). 

Demostración del teorema 3. Designemos sup W(*, 0) = W(x, 1), 
inf w(5, Q) = “(t, Q). Debemos convencernos de que 


"(rg 1) = infw(x, 1). 
Esto se deduce de las desigualdades siguientes, válidas para cualquier x- 
w(r, 1) > W(x, Q) > W(to, 0) = 
pa [ Pro, NQ(dt) =c > (To. Y). a 
A veces es útil la siguiente pequeña generalización del teorema 3. 


Teorema 3A. Supongamos que existen tales sucesiones Qx, To, que 
W(To,. Qn) — c. Supongamos, además, que existe una estrategia a dotada 
de la propiedad w(*, 0) < c para todos 0. Entonces, m es la estrategia 
minimax. 


La demostración es igualmente fácil: 
wr, TY) > w(x, On) > W(TO..» Q,) > c. 
Esto puede tener lugar si y sólo si inf W(”, 1) > c. Como c > w(x, T), el 
teorema queda demostrado. 

La distribución Q en el teorema 3, que define la estrategia minimax 
bayesiana r¿, posee una propiedad magnífica: la misma será la peor en 
el sentido de que las pérdidas bayesianas W(rg, q) serán máximas para ella. 

Definición 8. La distribución Q se denomina la menos favorable o la 
peor, si 

W(ra» 0) 5 Med w(xo, OQ), 


o, con otras palabras, %W(J, Q) = sup W(1, Q). 
Q 
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Teorema 4. Supongamos que el juego (D, Ó, w) tiene precio y que am- 
bos Jugadores tienen estrategias minimax x y Q. Entonces, la distribución 
Q es la peor, y * es la estrategia bayesiana r = TÍ Que responde a Q. 


Observación 1. Del hecho de que, en virtud del teorema 1, a la par con 
7 Cxiste la estrategia bayesiana pura $g. de ningún modo se deduce que 
esta última también será minimax. 

Observación 2. En virtud del teorema fundamental de los minímax, la 
condición del teorema 4 acerca de la existencia de precio del juego prome- 
diado y de estrategias minimax, no se debe considerar como una limitación 
considerable. 

Necesitaremos la siguiente afirmación auxiliar que enunciaremos en tér- 
minos del juego inicial (no promediado). 

Lema 1. Supongamos que el juego (D, O, w) tiene precio y estrategias 
minimax 5 y 0 de ambos jugadores. 

wd, 1) = infw(s, 1), w(l, 6) = sup WU, 6). 


Entonces e a Ñ 
w(S, 1) = w(3, 6) = w(t, 0), (7) 
w” = w(5, 0) = w,. (8) 
_Al contrario, si para ciertos 5, Ú se cumple (7), entonces es válida (8), 
y 6, Ó son estrategias minimax. 
Demostración. Para todos Ú y € tenemos 
w(5, 1) > w(5, 0) > w(3, 0). 
De aquí resulta a . 
w” = w(5, 1) > w(3, 6) > w(l, 6) = w.. (9) 
Como, según la condición, w” = w,, en (9) todos los signos de desigual- 
dad deben sustituirse por signos de igualdad. Esto demuestra (7) y (8). 
Al contrario, si es válida (Mm, entonces 
w” = inf w(5, 1) < W(6, 1) = w(), 6) < supw(, 0) = w,. 
3 U 


En vista de que siempre w” > w,, las desigualdades mencionadas significan 
que w” = w, y que las estrategias ¿ y Ó son minimax. Bl] lema queda de- 
mostrado. —__ 

El punto (6, 6) que posee la propiedad (7) se llama punto de ensilladura, 
el lema 1 se denomina criterio de existencia del punto de ensilladura de 
las estrategias minimax inmejorables. 

Demostración del teorema 4. Apliquemos el lema 1 al juego prome- 
diado (D, Ó, m). Entonces obtendremos que 


wr, 0) = Y, O) = %, = sup (1, Q). 
33? 
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De aquí se desprende que la distribución Q es la peor y que T es la estrategia 
bayesiana correspondiente a Q. El teorema queda demostrado. 

El contenido de las afirmaciones citadas anteriormente ahora se puede 
resumir en forma del criterio siguiente, que tiene carácter minimax y que 
describe muy ampliamente la relación entre las estrategias minimax y las 
estrategias bayesianas. 


Teorema S. Supongamos que el juego (D, O, w) tiene precio y estrategias 
minimax. Entonces, las tres condiciones siguientes son equivalentes: 

1) La estrategia x es minimax. 

2) La estrategia + es bayesiana e igualadora. 
__ 3) La estrategia + es bayesiana y corresponde a la peor distribución 
OQ: "== Lé- E 

Demostración. La relación 2) = 1) se ha demostrado en el teorema 3 
(para esto no se necesita la condición del teorema 5). La relación 1) = 3) 
se ha establecido en el teorema 4. Necesitamos convencernos de que 
3) = 2), o sea, que la estrategia bayesiana, correspondiente a la peor distri- 
bución, es igualadora. Tenemos 


%» =*G, Q)= wz, Q(d() £ sup W(Z, N) = Y”. 
f 
Esto significa que ¡w, NQ(dt) = sup W(x, £) y, por consiguiente, 
, 


w(E, £) = W(z, 1) cd. 10). 


En vista de que, además, siempre W(r, f) € W(*, T), entonces es una 
estrategia ingualadora. El teorema queda demostrado. 

Volvamos ahora a la cuestión acerca de la aplicación de las clases exami.- 
nadas de estrategias. Supongamos que no podemos destacar la subclase 
de estrategias que nos satisfagan, entre las cuales exista la estrategia unifor- 
memente mejor. Supongamos, seguidamente, que disponemos de ciertas 
nociones acerca del comportamiento del segundo jugador (o sea, de los 
valores estimados de 06) que, sin embargo, no son suficientes para aplicar 
el enfoque bayesiano en su forma pura. En estas condiciones el enfoque 
minimax significará el desprecio de la información que tenemos a nuestra 
disposición. En tal situación se puede utilizar el enfoque intermedio que 
consiste en lo siguiente: 

1) Prímero es necesario protegerse contra las altas pérdidas, o sea, exa- 
minar tan sólo las estrategias 6 para las cuales w(5, 0) < w” + a con valores 
convenientes de a > 0 y para todos 0. El conjunto de estrategias que satisfa- 
cen esta desigualdad serán designadas por Da. 

2) En este subconjunto (o sea, en el juego (Da, O, w) ya se puede aplicar 
el enfoque bayesiano, utilizando las aproximaciones, accesibles a nosotros, 
para la distribución a priori Q. 
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Tal enfoque mixto se usa también constantemente en la actividad huma- 
na cotidiana. En las condiciones del ejemplo 2 este enfoque significará que 
el estudiante aprenderá muy superficialmente todo el material (para evitar 
una nota insatisfactoria) y luego aprenderá mejor lo que se pregunta con 
más frecuencia. 

La utilización matemática del enfoque mixto debe acompañarse de in- 
vestigaciones de la estabilidad de las pérdidas bayesianas en el juego (Do, 
O, w) para las variaciones admisibles de Q. 

5. Clase completa de estrategias. Si todos los enfoques anteriormente 
descritos no permiten elegir univocamente la estrategia, la solución del 
problema se limite a la descripción de la llamada clase completa de estra- 
tegias. 

Definición 9. La clase de estrategias D” C DÓ se llama completa si para 
todo r¿D” existe la estrategia ro € D” que es mejor que r. 

La clase Dí se denomina clase completa mínima si Dó es una clase 
completa, pero a condición de que ninguna de sus propias subclases no 
sea una clase completa. 

Con otras palabras, la clase completa mínima se compone únicamente 
de estrategias inmejorables. 

La utilidad de construcción de la clase completa mínima o de la clase 
completa, la cual es mucho menor que D, es evidente. Esto da la posibilidad 
de reducir el juego (0, €, w) al (D", Ó, w), el cual puede tener una estructu- 
ra más simple. 

El segundo teorema fundamental de la teoría de los juegos consiste en 
que para amplias suposiciones, la clase de todas las estrategias bayesianas 
[To], Q € 8, es una clase completa. La enunciación exacta de este teorema 
se dará en el párrafo siguiente. En algunos casos, las clases completas se 
pueden construir también directamente, utilizando la estructura del juego. 
Admitamos, por ejemplo, que existe una partición del espacio D en subcon- 
juntos Do, D = Po Dr, Dr, % Dy, cuando b, = bz, tal que en cada uno de 


estos subconjuntos (o sea, para los juegos (Dj», O, w)) existe la estrategia 
uniformemente Óptima d,€ Dp. Está claro que en este caso la clase 
D" = (55) op será completa. Tal enfoque de la construcción de la clase 
completa será ilustrado en el $53. 


$3. Juegos estadísticos 


1. Descripción de los juegos estadísticos. Los elementos principales del 
juego estadístico se forman por la misma terna (0D, 6, w) que hemos exami- 
nado en el párrafo precedente. No obstante, se les añade lo siguiente: 
1) En los juegos estadísticos el estadista (investigador) desempeña el pa- 
pel del jugador 1, y la naturaleza (más exactamente, la naturaleza del fenó- 
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meno que se investiga), el papel del jugador lI. La naturaleza elige (o 
““adivina”) el parámetro (estrategia) O que desconocemos y que determina 
el estado del objeto sometido a investigación. La mayoría de los problemas 
de la estadística matemática está relacionada, de un modo u atro, con la 
toma de tales decisiones $ que adivinarían lo más precisamente posible este 
0 desconocido. En este caso es necesario tener presente que la naturaleza 
como jugador no tiene por objeto la ganancia máxima (es decir, no intenta 
causarnos las pérdidas máximas) y desde este punto de vista es un jugador 
“imparcial” de la elección de sus propias estrategias. 

2) En los juegos estadísticos tenemos la posibilidad de “explorar” la 
estrategia de la naturaleza con ayuda de los experimentos que nos dan en 
forma de la muestra X € Po las indicaciones “sugestivas” de cuál debe ser 
el valor de 9. Pues, la muestra X de volumen * », procedente de la distribu- 
ción Pa que depende de 6, es un elemento del juego estadístico. 

En estas condiciones debemos elegir, evidentemente, nuestra decisión 
$ en dependencia de X. Por consiguiente, ahora llegan a ser estrategias del 
estadista todas las funciones 5(X) que aplican 2” en D. Estas funciones 
AX) se llaman funciones de decisión o reglas de decisión. Nos limitaremos 
a examinar sólo las funciones 5(X) que realizan la aplicación medible de 
(2”, BE) en (D, fp). Designemos por 2 el conjunto de todas estas fun- 
ciones. 

El conjunto de estrategias del jugador II (de la naturaleza) 8 queda 
el anterior. 

Si hacemos uso de la decisión 4(X), y la naturaleza elige 0, nuestras 
pérdidas constituirán w(S(X), 0). Es una variable aleatoria. Para evitar esta 
incomodidad, es natural que en calidad de pérdidas para las estrategias 
ó=65()€2 y 0€9 se tome el valor de la esperanza matemática 

W(8(-), 0) = Mem(S(X), 8) = [w(s(x), OPo(ax), (1) 
que se llama función de riesgo (la aparición de la palabra “riesgo” aquí 
es natural, ya que la aplicación de 4(-) da un resultado aleatorio). Si se 
cumple la condición (A,) acerca de la existencia de la densidad fa(x) de 
la distribución Ps con respecto a cierto p-finita medida y, entonces la fun- 
ción de riesgo puede escribirse en la forma 


W(5>), 8% = | w(5(o, 0) S()4"(ax). 
Ahora podemos dar la siguiente 


En las construcciones de este párrafo podríamos, sin limitar la generalidad, considerar 
que n = 1. Sin embargo, conservaremos el concepto de muestra de volumen n con el fin de 
dejar válidos los vínculos simples con los resultados de los capítulos precedentes y con las 
consideraciones posteriores ($$ 6-—8). 

Una concepción más general de juego estadístico trata de una muestra indefinida 
(Xo = (11, Xz, ...), en la cual la utilización del elemento x, va acompañada de las pérdidas 
Ca 2 0 (véase [63)). 
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Definición 1. Se llama juego estadístico la terna (2, O, W), donde O 
es el conjunto de estrategias de la naturaleza, 2 es el conjunto de todas 
las aplicaciones medibles del espacio 2”” en el conjunto D, y W ha sido 
definida en (1). Para caracterizar más completamente el juego estadístico, 
junto con la terna (2, O, W) se puede considerar también dado el par 
(X, Po), donde X € Po. 

Ejemplo 1. Supongamos que 0 € [0, 1] determina el contenido de cierto 
componente químico de la mena preparada para la fusión. Si tomamos 
la decisión de que la porción de este componente es igual a % += 0, y de 
acuerdo con esta decisión se organiza todo el proceso de fusión, entonces, 
como resultado, la calidad del metal fundido será peor que cuando ¿ = 6, 
y el consumo de energía será más alto. En otros términos, sufriremos las 
pérdidas w(5, 0) que serán tanto más grandes cuanto más se distinga 5 de 
0. Supongamos, para abreviar, que w(ó, 0) es proporcional al cuadrado de 
desviación de ó de 0: 

w(6, 6) = c(5 — 0). 


(Si la función w(ó, 0) es suave y si se examina el entorno de la recta $ = 6, 

la suposición simplificadora será aquí únicamente la independencia de c 

respecto a de Como resultado obtendremos el juego (D, O, w), en el cual 

= (0, 1], O = [0, 11, 

y para ó > 1/2, 

w(5, 1) sup w(6, ) = del (l—8?  para3< 1/2, 
w” = inf w(S, 1) = w(1/2, ?) = c/4, 

$ 


Ahora bien, la estrategia $ = 1/2 es minimax y garantiza las pérdidas 
<c/4. Como w, = 0, este juego no tiene precio. La randomización del 
juego no mejora la estrategia minimax 5 = 1/2 (da vw, = c/4). Le dejamos 
al lector que él mismo se cerciore de que la estrategia bayesiana óg tiene 
aquí la forma ó7 = Mof = [ *Q(ar) (esto resulta de las igualdades 
(5, Q) = cMo(5 — 0 = cMo(0 — Mo0Y' + cCMo(ó — Mo0)*) y que la 
peor distribución Q tendrá la forma Q((O0)) = QU1)) = 1/2. Es evidente 
que la estrategia bayesiana correspondiente es $7 = 1/2, 

Supongamos ahora, que la mena es heterogénea y que tenemos la posi- 
bilidad de tomar rn pruebas de mineral. Estas pruebas se realizan de modo 
que los resultados de los análisis de laboratorio para el contenido del com- 
ponente mencionado en las pruebas sean aleatorios y nos den los valores 
independientes de (Xt, ...» X») = X respecto a los cuales se sabe que 
Mx, = 0, Dx, = b/(0). En este caso, como decisiones 5(X) servirán todas 
las estimaciones posibles 9” = XX) del parámetro 0 según la muestra X. 
El riesgo de la función de decisión ó(X) será igual a 


W(, 0) = cMAó(X) — 0y, 
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y llegamos al problema de determinación de la estimación 0” = (X) que 
minimiza en uno u otro sentido este riesgo. Si ponemos, por ejemplo, 
51(X) = Xx, obtenemos 


mo, o= 20. 2) 


El valor máximo de bd(0) es igual a 0(1 — 0) y se alcanza en la distribu- 
ción x, concentrada en los puntos O y 1. 
Como tal posibilidad se puede excluir, entonces 


b(0) < 011 — 0) £ 1/4, W(ó, O) < c/4n. 


Ahora bien, incluso en el caso de n = 1 y cuando se utiliza, quizás, no 
la mejor estrategia, obtenemos un resultado que es mejor que para la estra- 
tegia minimax en el juego sin muestra. La relación (2) también indica que 
el riesgo converge hacia el cero cuando rn > «o. «< 

De la definición dada anteriormente del juego estadístico se deduce que 
este último posee un conjunto mucho más rico de estrategias 4 en compara- 
ción con el juego inicial (D, O, w). 

A] igual que en el $2, a la par con el juego (2, O, W), las estrategias 
del cual llamaremos puras, se pueden examinar juegos randomizados o mix- 
tos (D, O, W). Aquí el conjunto 4 es el de las aplicaciones de *(X): 
Za > D. Estas aplicaciones deben ser tales que los valores 

MELO, 0) = | w(u, Ox(X, du) 
D 
sean variables aleatorias; (r(X, A) es la probabilidad del conjunto A CD 
en consonancia con la regla de decisión *w). Entonces, por definición, 
ponemos 


W(x(), Q) = ¡ Í j wc, t)r(x, du)P (dx)Q(dr). 
ex”. 

La estrategia r(X) se llama regla randomizada de decisión. 

Las relaciones de orden parcial entre las estrategias, las estrategias uni- 
formemente mejores, bayesianas y minimax, y las clases completas para 
los juegos estadísticos se definen exactamente igual que para los juegos 
am (sustituyendo el conjunto D por Z y las funciones w y *%, por 
W y í 

Las afirmaciones de los teoremas 2.1—2.5 se extienden por completo 
a los juegos estadísticos, ya que estas afirmaciones de ningún modo están 
relacionadas con la naturaleza del conjunto D. 

2. Clasificación de los fuegos estadísticos. Con la naturaleza de los con- 
juntos D y O está vinculada la siguiente clasificación que separa los tipos 
principales de los juegos estadísticos: 
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1) Si 0 = A, D = A, donde A es un subconjunto “sólido” en R* (por 
ejemplo, un paralelepipedo), w(£, £) = 0, w(t, 4) > 0 para t x u, obtene- 
mos los problemas de la teoría de estimación puntual del parámetro desco- 
nocido 0. 

2) Si los conjuntos O = f0,, ..., 0-), D = (61, ... , 8,) son finitos y 
contienen un número igual de elementos, w(6;, 01) = 0, w(8:, 0/) > O para 
¡ 4 j, obtenemos los problemas de verificación de un número finito de hi- 
pótesis simples. 

3) Si O es una región “sólida” en R*, D = (8,, 52] se compone de dos 
elementos, w(5,, 0) = 0 para 90€ O,, w(62, 6) = O para 0 e > (8,N 0, es 
un vacío) y w(6,, 0) > O en los demás casos, llegamos al problema de verifi- 
cación de las hipótesis (09€ 8,] y (0 € 02). 

Son posibles, desde luego, también otras clases de problemas. Hemos 
destacado estos tres tipos, puesto que han sido examinados en los capítulos 
2 y 3. Además, hemos investigado estos problemas partiendo de posiciones 
puramente “estadísticas”, lo que corresponde a una elección especial de 
las funciones w(6, 9); en el primer grupo de problemas, las pérdidas se han 
determinado por la desviación estándar, lo que corresponde a la función 
de pérdidas w(5, 6) = ($ — 0); en el segundo grupo, las pérdidas se han 
determinado por la probabilidad de equivocarse, lo que corresponde a la 
función 


ij 


Lo mismo se refiere también al tercer grupo de problemas, en el cual hemos 
utilizado la función de pérdidas 


só 9 = [0 pan 900, 


w(5,, 8,) == des i = J» 


1l para 0€0,. 


_ (1 para 0€8,.. 
tez, 9 = (7 para 0€8.. 


Llamaremos funciones estadísticas las funciones de pérdidas que corres- 
ponden a un enfoque puramente estadístico de los problemas. 

La clasificación citada muestra que no existe ningúna diferencia de prin- 
cipio entre los problemas de la teoría de estimación y la verificación de 
las hipótesis estadísticas. Todo consiste exclusivamente en la naturaleza de 
los conjuntos O y D y en la forma de las funciones de pérdidas. 

Tomando como ejemplo esta clasificación, se puede señalar una pecu- 
liaridad más de los juegos estadísticos (en adición a los puntos 1 y 2 dados 
al principio de este párrafo); esta peculiaridad consiste en que en los juegos 
estadísticos, el conjunto D ora coincide con 8 ora es un conjunto más pobre 
que 8. 
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3. Dos teoremas fundamentales de la teoría de los Juegos estadísticos. 
Vamos a formular ahora los resultados principales de la teoría de los juegos 
estadísticos. Ya hemos indicado que las afirmaciones de los teoremas 
2.1—2.5 quedan válidas, ya que no están relacionadas con la naturaleza 
de los juegos. Para obtener dos teoremas fundamentales mencionados en 
el $2, introduzcamos ciertas suposiciones. No son, ni mucho menos, las 
suposiciones más generales (de lo contrario, las enunciaciones y demostra- 
ciones se complicarían extraordinariamente), pero son bastante amplias pa- 
ra abarcar el grupo más interesante y sustancial de problemas y, en 
particular, los examinados en los capítulos 2 y 3. 

Condición (A). Cada uno de los conjuntos O y D es finito o es un 
conjunto compacto en R*. 

Como ya hemos señalado, el caso cuando € es finito, y D € R*, se 
puede dejar sin examinar. En los demás tres casos vamos a suponer que 
la función de pérdidas w(ó, O) satisface la condición siguiente. 

Condición (B). 

1) SIiDCR*, O CR, la función w(5, 0) será continua en D x O. 

25/80 CRyD=(181, ..., 6) es finito, cada r de las funciones w(6;, 
O, i=1, ..., 7 será continua en O. 

SiO0=f0,, ..,0) yD= fó6s, ..., 07) son finitas, los valores de w(6,, 
6), il, j= 1, ..., r pueden ser arbitrarios. 

Además, exigiremos que se cumpla la 

Condición (C). Disponemos de la muestra X € Po de la distribución 
Po, absolutamente continua para todos 0 respecto a cierta medida c-finita. 


Si OC R*, entonces la densidad cd (0) = f(x) es continua en L; 


(Z Vo, u) respecto a 0, o sea, para Om > 0, 
| fo. 0) — fo)! (dx) — O. (3) 
No es difícil comprobar que la continuidad ordinaria f(x) respecto a 
0, para [a] c.t. x, contribuye a la continuidad (3). 
Teorema 1. Si se cumplen las condiciones (A), (B), (C), el juego prome- 
diado (BD, Ó, W) tiene precio y estrategias minimax w(X) y Q: 
WE), 1 = inf Wír(>), Y), WA, Q) = sup W(, Q). 


De los teoremas 2.4 y 2.5 del párrafo precedente sabemos que Q es la 
peor distribución, 


Hao, 0 = sup W(ra(), 0) = sup WA, O), 
y HA) = ro(X) es la estrategia bayesiana correspondiente a Q. 


Sabemos también (véase el teorema 2.5) que para que la estrategia r(X) 
sea minimax, es necesario y suficiente que la misma sea bayesiana: 
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HA) = ro(X) para cierta distribución a priori Q, y 

W(G(), $ = c = const cd [Q), 

Wa), % <c. 
Este último criterio del carácter minimax ya fue utilizado reiteradas veces 
en diferentes situaciones particulares (véanse los $8 2.11, 3.1, 3.5 y 3.9). 


Teorema 2. Al cumplirse las condiciones (A), (B), (C), la clase de todas 
las estrategias bayesianas será completa. 


En el Suplemento VIII aducimos las demostraciones de los teoremas 
] y 2 en su forma más general, cuando D y O son espacios métricos com- 
pactos arbitrarios (condición (A)); la función w(ó, 0): D x O —= R es conti- 
nua respecto a Ú y 0 en las métricas respectivas (condición (B)); la 
distribución Po es continua respecto a 9 según la variación (condición (C)). 

Las demostraciones de los teoremas 1 y 2 en caso de ciertas suposiciones 
adicionales, se pueden deducir de [90]. Sin embargo, las demostraciones 
para el caso de D y € finitos se pueden deducir de [7] y [93]. En estas 
mismas monografías es posible hallar una exposición relativamente comple- 
ta de los elementos de la teoría general de los juegos estadísticos (y, en 
particular, la investigación para algunos casos de construcción de la clase 
completa mínima; véase [(93)). 

Los teorema 1 y 2 muestran cuán importante es el problema de descrip- 
ción de la clase de todas las reglas bayesianas de decisión. El siguiente 
párrafo está dedicado a este problema. 


$ 4. Priucipio bayesiano. Clase completa de funciones de decisión 


Hemos visto que por su construcción el juego estadístico es un objeto más 
complejo que el juego inicial (D, O, w). Para este juego, sobre todo si se 
trata de los conjuntos simples D y € (por ejemplo, finitos), la determina- 
ción de las estrategias bayesianas y minimax puede ser una tarea relativa- 
mente sencilla. Al mismo tiempo, incluso el conjunto D de los juegos 
estadísticos elementales es de naturaleza muy compleja, y esto puede difi- 
cultar considerablemente el estudio de dichos juegos, siempre que los mis- 
mos se consideren como juegos ordinarios. 

Ejemplo 1. Supongamos que los conjuntos D = (6,, 01], O = (61, 02) 
son bipuntuales, w(ó,, 0,) = Wy, Wi =0, Í, j = 1, 2. Sea Q = (q, 1 - q) 
la distribución a priori en O. Entonces, 

P(S, Q) = qm + (1 — Q)Wa. 
Por consiguiente, la estrategia bayesiana xo tiene la forma 


_ $0, si *w(6, Q) < (82, Q) (qa > (1 — q)w2), 
"o(da) = E si "(QQ (m<a-gw) O 


508 CAP. 3. ENFOQUE BASADO EN LA TEORÍA DB LOS JUEGOS 


(ro(6;) es la probabilidad de que se acepte 6,). 
Si 


W(81, Q) = W(62, Q) (2) 
o bien, que es lo mismo, si q = q = Wiz +(W¡2 + W21), entonces, en calidad 
de ro se puede tomar cualquier distribución de ” en el conjunto (01, 02). 
De un modo exactamente igual siempre se puede hallar una distribución 
de 7 x= (p, 1 — p) tal, que 


w(x*, 01) = W(r, 02), o bien pw = (1 — p)w1- 


La solución de esta ecuación p = w21/(W21 + w12) responde, evidentemen- 
te, a la estrategia bayesiana igualadora ro, Q = (q, 1 — 4), la cual, en vir- 
tud de los teoremas 2.4 y 2.5, será minimax. La distribución Q será la peor. 

Vemos que la “resolución” de este juego se lleva a cabo bastante simple- 
mente. No obstante, si se pasa al juego estadístico, incluso en el caso ele- 
mental de Wi = wz, = 1, obtendremos el problema de los criterios 
bayesianos y minimax para cuya investigación hemos necesitado dos párra- 
fos: 3.1 y 3.2. 

Un hecho magnífico, al cual dedicamos el presente párrafo, consiste 
en que el problema de determinación de las estrategias bayesianas (y, por 
lo tanto, de la clase completa y de las estrategias minimax) para los juegos 
estadísticos puede ser reducido, en cierto sentido, al mismo problema para 
los juegos iniciales (D, O, w). Esta reducción se basa en la afirmación si- 
guiente, la cual llamaremos principio bayesiano: Sea, como antes, 


f«X) = II Fotx1) 


la función de verosimilitud de la muestra X y sea ella misma la densidad 
de X en 9” respecto a p”. Supongamos, además, que la distribución a 
priori Q en (0, fe) tiene una densidad q(t) respecto a cierta medida A 
(es evidente que esto no es una limitación). Entonces, de acuerdo con el 
8 2.11, la función (x, Y = 9(D/ dx) será la densidad de la distribución com- 
patible de (X, 6) en 2” x €. Esto quiere decir que la función 
1097152) 
IO) ” 
SO) = | a(YAx)Madn), 

define la densidad condicional de la distribución de 9 a condición de que 
X = x. Esta densidad corresponde a la distribución a posteriori Q, de la 
variable aleatoria 9 a condición de que X = x. La relación (3) se denomina 
fórmula de Bayes (véanse los 83 2.10 y 2.11). 

Teorema 1 (principio bayesiano). Supongamos que se cumple la condi- 
ción (A,), que la distribución a priori en O tiene una densidad de q(0), 


q(t/x) = (3) 
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y que Q,, significa la distribución a posteriori de densidad (3), la cual 
corresponde a la distribución a priori Q. Supongamos, además, que el juego 
inicial (D, O, w) para cualquier distribución a priori Q, tiene la estrategia 
bayesiana ro. Entonces, el juego estadístico (2, O, W) tiene una estrategia 
bayesiana «o(X) correspondiente a la distribución Q, la cual coincide con 
To,» O sea, con la estrategia bayesiana del juego inicial, correspondiente 
a la distribución a posteriori Q%x. 

La afirmación de este teorema se puede expresar por una sola igualdad 

TO(A) = ro.. 

Esta reduce el problema planteado, al problema de determinación de la 
distribución a posteriori Q, y al problema de determinación de las estrate- 
glas bayesianas para el juego inicial. 

El teorema | es muy importante para comprender el mecanismo de 
influencia de la información obtenida de la muestra, sobre la elección de 
la estrategia Óptima. La información a priori, representada por la distribu- 
ción Q en 6, varía continuamente bajo la influencia de los datos experi- 
mentales. La estrategia óptima será la que tendrá en cuenta estas 
variaciones, del modo siguiente: es necesario tomar la estrategia óptima 
en el juego inicial, pero que ya no corresponde a Q, sino a Q.. 

Demostración del teorema 1. Tenemos 
Wa), Q) =$ | "0, DICO (d)ga(OMat) = 


JE de 


= | fodu(dx) | W(), Da(t/xIMAD). (4) 
z O 


Aquí hemos utilizado (3). El cambio del orden de integración es justo en 
virtud del carácter no negativo de la función subintegral. La segunda in- 
tegral en el segundo miembro (4) no es otra cosa sino WA(o), Qr). Pero 
para cualquier x, 


Wír(x), 01) > W(ro.. Qr) = ] Wo, Dalt + xiMdt). 


Sustituyendo esta desigualdad en (4) y volviendo al orden inicial de integra- 
ción, obtenemos 


Wi) 0)> ( Fo)" (dx) | rro, alt +x)Mdt) = Wira, Q). 

g” e 

En vista de que aquí x(x) es arbitraria, esto quiere decir que 
TOO) = TQ. A 


Observación 1. Con fines de precisión, en las consideraciones citadas 
debemos especificar la mensurabilidad de la función W(ro,, f) respecto a 
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8” x Fe. Omitimos estas restricciones, ya que éstas tienen un carácter pu- 
ramente técnico y, al cumplirse las condiciones (A), (B) y (C) del $ 3, son 
completamente innecesarias. El lector puede comprobar personalmente esta 
última afirmación, utilizando el hecho de que para D y 8 discretos, tal 
mensurabilidad se establece de un modo evidente, así como el hecho de 
que el juego arbitrario, al cumplirse las condiciones (A) y (B), puede ser 
“aproximado” al juego discreto tan exactamente como se quiera. 

Volviendo al ejemplo 1, ahora podemos, en virtud del teorema 1, señalar 
inmediatamente el tipo de estrategias bayesianas para el juego estadístico 
respectivo. Precisamente de (1) obtenemos 


Qf (X) w12 
e ar + (1 YA KITE 
"Qr(92) = E Wa p 
)» $ qr< Wu + Wa . (5) 
Si 
wW:2 
qe Waz + wa1 ” (6) 


entonces, en calidad de ro, se puede tomar cualquier distribución en (61, 
62). La desigualdad ($) se puede escribir de la forma siguiente: 


f(X) _ all — q) -_ Ma 
TA) ? qU=a* “ wz+ ma je 


Este es el criterio de relación de verosimilitud que ya conocemos. 
Seguidamente, 


Wiro, 0) = w:Maro(81) + myMororíó2), j= 1, 2. 


Supongamos, para abreviar, que la igualdad (6) tiene lugar con Po, proba- 
bilidad de 0, así que la estrategía bayesiana con Po, probabilidad de 1 será 
pura, j = 1, 2. Entonces, 


Moro. (51) = Po, So. (A) > a 2 q) 


“(4)” ql - ay)" 
en L(%) _ all — q) 
W(xo, 61) = wa Po, oo < ¿d-0) 


a Se (X) a(d — q) 
Wízo, 02) mr (E > 2d=a) 


De aquí ya no es difícil hallar el valor de q correspondiente a la peor distri- 
bución Q, para el cual ro, será la estrategia igualadora, o sea, la estrategia 
con la que 


Wiro 01) = Wap, 62). 
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Según los teoremas 2.4 y 2.5, esta estrategia será minimax. Le dejamos al 
lector que él mismo extienda el procedimiento descrito de determinación 
de la estrategia minimax, al caso general cuando P,,- o Po, -distribuciones 
SJ(ADV/fo (AX) contienen la componente discreta. 

Valiéndonos del teorema 1 podemos, de un modo análogo, obtener la 
generalización de los resultados de los $$ 3.1 y 3.2 para el caso de D y O 
finitos arbitrarios y de una función arbitraria de pérdidas w(ó,, 6,) = wy, 
la cual en este caso también puede llamarse matriz de pérdidas Mw(8,, 0/31. 
(En los párrafos $$ 3.1 y 3.2 hemos examinado el caso particular de wy = 1 
cuando ¡yx f). Para wy arbitrarias, la regla bayesiana de decisión tendrá 
la forma siguiente. Sea Q = (q(01), ..., 9(9,), Q: = (qx(01), ..., axt0,)), 


IONIAA) 


BN) = —_———_—= 
Li 2 a(9en. (A) 


r 
Entonces, (5, Qr) = Y, wuqx(6;) y, por lo tanto, 
Ji 


Tor(8x) = 1, si W(6x, Qx) < W(6, Qr) para todos ¿, o bien, que es lo mis- 
mo, si 
A We Lo XOQ(0) < 2 Wufo (0). 

Si existen varios valores de k dotados de esta propiedad (designémoslos 
por Ki, ..., Kks), entonces, cualquier distribución en 85x,, ..., 0x, también 
será una estrategia bayesiana rTo,. 

La determinación de la estrategia minimax se lleva a cabo del modo 
siguiente. Supongamos, también para abreviar, que Poy-distribuciones 
*W(51, Qx) no tienen componentes discretas. Entonces, 


Wizro., 0) = Y) wyPo(w(81, Qx) < mín »(8, Qr)). 
im) sá 


En virtud del teorema 3.1 existe Q = (q(61), ... , 9(0-)) con la que la estrate- 
gia xp, igualará los valores de W(ro,, 0) para todos los valores de j. Esta 
estrategia será precisamente minimax. 

De las consideraciones citadas y del teorema 3.2 también es fácil obtener 
el tipo de clase completa de estrategias del juego estadístico (2 €, WM) 
en el caso de D y 0 finitos. 

Examinemos las estrategias ro, que son la distribución aleatoria de ta- 
les 5x,, ..., 6x, para los cuales 


min (Es (0%, — woo (20900) = 0 
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La clase de tales estrategias (bayesianas), que se obtienen si q(0;, ..., 
4(0,), recorrerán todos los valores posibles y serán una clase completa. He- 
mos visto que en el caso de r = 2 esta clase resulta muy simple y estrecha 
(véase (7)): consta de las funciones de decisión r(X) = (x(X, 61), T(X, 62)), 
donde *(X, 6) son las probabilidades de que se tome la decisión 8, 


1, si ROO ><c, 

HX, 51) = $p€[0, 1, si R(O =c, 

0 si ROO <cC, 
A 0<cgw, (8) 


En los juegos continuos con conjuntos D y € para algunas funciones 
de pérdidas concretas importantes también es posible hallar la forma explí- 
cita de las decisiones bayesianas. Supongamos, por ejemplo, que D y 8 
son las regiones de R*, y que la función de pérdidas es cuadrática: 


k 
w(5, 6) = clé-6l2=c $ 18 - 8,17, (9) 
im] 


donde ¿,, 0, son las coordenadas $ y 0. Entonces, 
(5, Q) = 05 15 — e1*Q(dí) = cMpl5 — 91?, 


Sabemos que el mínimo de esta expresión se alcanza para 
5 = Mod = | ¿Q(dí). Esto es, evidentemente, la estrategia bayesiana 
50 = Mo?f. De aquí y del principio bayesiano resulta que la estrategia baye- 
siana 50(A) = 69 en el juego estadístico tendrá la forma siguiente: 


00 = 50, = | !Qrídt) = | tate/XMdt). (10) 
R' R* 


Este resultado ya fue obtenido en el capítulo 2. 

El riesgo de la estrategia 09 es igual a W(99, $) = cMo 195 — 01?. La 
distribución a priori Q, , para la cual Ms10% — 61? = const, nos a 
la estimación minimax 0” = Sp(A). Ejemplos de construcción de estima- 
ciones minimax en esta vía se dan en el $ 2.11. 

La clase de estimaciones (10), donde Q recorre los valores en la clase 
de todas las distribuciones en O, es una clase completa. 

Examinemos ahora otro caso particular de la función de pérdidas 


w(5, 6) = cló — 6l (11) 
y Supongamos que O = R, D= R. Entonces, 
(6, Q) = cMoló — 61 =cf lá — QUA) = 


eS (8 - DQ(dO) + c í (t - SQ(dí). 
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Utilizando la integración por partes y designando F(t) = Q((— oo, 1)), 
hallamos 


8 00 
*B, Q)=c | (56 tdF() — e $ (1 — 8d — FU) = 
-0 5 


$ «o 
s e[ ¡ FiDdt + j (1 - Fcovar|. 
— 3 


La derivada de esta expresión respecto a Ú$ existe cd. y es igual a 
c[2F(5) — 1]. Esta función crece monótonamente y cambia de signo en el 
punto 4, igual a la mediana de la distribución F: F(S — 0) < 1/2, 
F(8 + 0) >» 1/2. De aquí se deduce que w(ó, Q) será convexa en cuanto 
a Ó y en el punto ó tendrá el mínimo valor. 

En virtud del principio bayesiano esto quiere decir que la mediana de 
la distribución a posteriori Qx será la estimación bayesiana 06 = 50(X) 
para la distribución a priori Q y la función de pérdidas (11). Al igual que 
en el caso (9), esto dá la posibilidad de hallar la función de decisión mini- 
max y la clase completa. 

De un modo análogo se puede examinar el caso 


w(5, 6) = cló —- 01%, a>0. 


En conclusión de este párrafo nótese que la función cuadrática de pérdi- 
das (9) en caso de c = 1 para los conjuntos continuales D y O y la función 
de pérdidas 

= O, i= J, 

w(6;,, 0y) ( Lie (12) 
para D y O finitos desempeñan un papel especial en la teoría de los juegos 
estadísticos. En este caso las funciones de riesgo se convierten en la suma 
de la varianza y el cuadrado del desplazamiento de la estimación para D 
y O continuales, así como en la probabilidad de equivocarse para D y O 
finitos, respectivamente. Estas características, que son naturales de por sí, 
nos servían de base para elegir las reglas óptimas en los capítulos 2, 3 y 
4. Si un problema estadístico no contiene indicaciones directas concernien- 
tes a la forma de la función w(ó, 6), entonces con más frecuencia en calidad 
de w(5, 6) se eligen precisamente estas dos funciones: (9) ó (12). Hemos 
decidido llamarlas funciones estadísticas de pérdidas. 


$ S. Suficiencia, carácter no desplazado e Invariación 


Los principios de suficiencia, de carácter no desplazado y de invariación 
sirven para reducir la clase de reglas de decisión. Los mismos consisten 
en utilizar en calidad de funciones de decisión sólo las reglas de decisión 
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suficientes, no desplazadas e invariantes, respectivamente. La utilización 
de uno de estos principios, de dos de ellos o de los tres a la vez (si esto 
es posible) permite, en una serle de casos, reducir hasta tal punto la clase 
de estrategias sometidas a examen, que su intersección con la clase completa 
resulta integrada por una sola función de decisión. Esto quiere decir que 
en la subclase separada existe una estrategia uniformemente mejor (compá- 
rese con el punto 1 del $ 2) y esto resuelve el problema de elección de la 
decisión. 

Los tres principios son bastante naturales y ya han sido analizados en 
distintos casos concretos de los capítulos 2 y 3. 

El más irrefutable de ellos es el principio de suficiencia, que a menudo 
no es otra cosa sino el método de descripción de una clase completa. 

1. Suficiencia. Supongamos que se cumple la condición (Ay) y que exis- 
te la estadística suficiente S, o sea (véase el $ 2.12), 


JUX) = YO, S)-A(X). 
Supongamos, además, que la distribución a priori Q tiene una densidad 
q(t) respecto a cierta medida A. Entonces, en virtud del principio bayesiano, 


la estrategia bayesiana será totalmente determinada por la densidad a pos- 
teriori 


a(t/X) = OA) = MONA S) 
fatof2ONdu) | qlu)y(u, S)Mdu) ; 


que depende exclusivamente de S. Como cualquier distribución Q tiene 
densidad respecto a una medida h seleccionada respectivamente (se puede 
poner, por ejemplo, A = Q, 4(1) = 1) lo dicho significa que todas las reglas 
bayesianas de decisión ro(X) serán sólo funciones de S: 

To X) = pa(S). 
Con otras palabras, cualquier estrategia bayesiana ro(A) no depende de 
X al ser fija S,. 

Ahora supongamos que se cumplen las condiciones (A), (B) y (C) del 
$ 3. Entonces, la afirmación enunciada también atañerá a las estrategias 
minimax. Esto también significará que todas las reglas de decisión cons- 
truidas tan sólo como funciones de S (o sea, todas las aplicaciones medibles 
de $ / D, donde + es el espacio en que se hallan los valores de S), forman 
la clase completa 2,. Esto se deduce del hecho de que 2, contlene todas 
las estrategias bayesianas que forman, como sabemos, la clase completa. 
Evidentemente, la clase 2, será la mínima para la estadística suficiente 
mínima $. 

Está claro que la clase completa mínima no comprende todas las fun- 
ciones de S (con valores en D), sino tan sólo una parte reducida de las 
mismas. Eso lo confirma la fórmula (1), de la cual resulta, por ejemplo, 


(1) 
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que para los conjuntos bipuntuales D y O (véase (4.8), la clase completa 
está formada por funciones r(X) cuya probabilidad r(X, 51) de toma de 
decisión $, tiene forma de indicador del conjunto (R(X) > c), donde 
R(X) = U01, S)/Y(02, S) (véase, para precisar, (4.8)). 

SiDCR', O CR' y la función de pérdidas w(5, 6) tiene la forma 
w(3, 0) = w($ — 0), donde w(u) es una función convexa en R*, al principio 
de suficiencia se le puede conferir una forma muy constructiva que permite 
caracterizar eficientemente la clase completa, o sea, tiene lugar la siguiente 
generalización del teorema 2.14.1. 


Teorema 1 (Blackwell). Para cualquier función de decisión (estimación) 
0” = —UX) existe la estimación 


0s = Mo(0"/S) 


(05 no depende de 0. ya que S es una estadística suficiente) la cual no es 
peor que 0”, o sea, para todos 0 € 6, 


Mow(0s — 0) < Mow(0” — 0). 


Demostración. Tiene lugar la siguiente desigualdad de Jensen (véase 
el $ 2.9): si £ es una función convexa en R*; £, una variable aleatoria con 


valores en R*; y $, cualquier o-subálgebra de la c-álgebra principal, en- 
tonces 


MGE(D/S) > g¿(M(E/9))- 
Conforme a esta desigualdad, 
Msw(0” — 0) = Mo Me(w(0” — 0)/5)] > 
> Me w(Mo(0” — 0/s)) = Mow(0s — 0). <a 

Si la estadística suficiente S es completa, el teorema 1, junto con el 
principio de no desplazamiento, permite determinar unívocamente la mejor 
estimación. En efecto, examinemos la clase Ko de todas las estimaciones 
no desplazadas 0” = XX): 

Ms0* = 0 para 0” € Ko. 
Entonces, siguiendo exactamente los razonamientos del $5 2.14 (teorema 3), 
nos convencemos de que 03 = Me(0” /S) coinciden para todas 0” € Ko y, por 
consiguiente, la intersección de Kp y de la clase completa se compone de 
una sola estimación y(S), la cual es natural llamarla eficiente. 

De lo dicho se deduce que las estimaciones eficientes, si existen, serán 
las mismas para una función convexa arbitraria de pérdidas w(5 — 0). Esto 
permite utilizar, para cualquiera de estas funciones, todas las afirmaciones 
de los teoremas respectivos del capítulo 2, obtenidos para w(u) « u?. 

Los razonamientos citados ilustran la aplicación compatible de los prin- 
cipios de suficiencia y de carácter no desplazado. 
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2. Carácter no desplazado. Acabamos de ver qué papel puede desempe- 
ñaar el principio de carácter no desplazado en la teoría de las estimaciones. 
En el $ 3.6 hemos establecido que un efecto análogo (existencia de criterios 
no desplazados uniformemente más potentes) puede obtenerse al utilizar 
los criterios no desplazados en la teoría de verificación de las hipótesis esta- 
dísticas. 

En el caso general, el carácter no desplazado se define del modo siguien- 
te. Admitamos que el problema de una decisión estadística consiste en “de- 
terminar” el valor desconocido de Ó y que, por consiguiente, los conjuntos 
D y 8 coinciden. La función de pérdidas w(5, 0) puede ser arbitraria. 

Definición 1. La función de decisión 5(X) se llama no desplazada si 


Mew(S(19, 0) € Mewm(9CO, 0”) 
para todos 0, 0" 4 0. 
Con otras palabras, para v = 0 se alcanza mín Mew(S(A, uv). Esto signi- 


fica que 5(X5), por término medio, se encuentra más cerca de 0 desconocido 
que de cualquier otro punto. 

Es fácil notar que la definición de las estimaciones no desplazadas que 
hemos dado anteriormente es un caso particular de esta afirmación. 

Si se verifican dos hipótesis compuestas, H,=(0€8:) y 
H, = (0 € O), el conjunto D = (5,, 52) puede distinguirse considerable- 
mente de O, En este caso, la definición del carácter no desplazado será 
formalmente algo diferente, aungue su sentido queda invariable, o sea, la 
definición 1 se puede modificar de tal modo (véase [57)) que la misma 
pase a la definición siguiente. 

Definición 1A. La función de decisión 5(X) se llama no desplazada si 


M.W(S00, 0) € Mew(ó(X), 0”) 
para todos 0€8,, 6"€ 8, o bien 09€ 0, 0'€98,. 
Supongamos, para abreviar, que w($,, 0) = w, = const para 06€ O»; 
w(82; 6) = m = const para 09€ 91; $1 = 0, 82 = 1, y que ¿(X) significa la 
probabilidad (1 ó 0) de que se acepte Ha. Entonces, 


o [MPÁXNA) = 1) para 0€8,, 
PO ado = ()) para 0€0),, 


y - | MPAA) = 0) para 0€8,, 0' €6z, 
Aid: non para 0€0z, 0" €0, 


y las desigualdades en la definición 1A quieren decir que 


Po (5(X) = 1) € w¡Ps, (6(X) = 0) para 6,€80,, 
mP(HA) = 0) € mP., (5X) = 1) para 6,€9,, 
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o bien, que es lo mismo, 


Y) ”»1 
PA = DE pra Po (SA) = 1) ETE : 
De aquí se deduce que 
sup Moó(X) < cae Moó(X) 


y que, por consiguiente, el criterio 5 no será desplazado desde el punto 
de vista de las definiciones del $ 3.6. Al contrario, si es válida la última 
desigualdad, el criterio $ no será desplazado desde el punto de vista de 
la definición 1A al elegir adecuadamente la función de pérdidas w(5, 0), 
por ejemplo, para w,/(w, + w2) = sup Moa X). 


Los ejemplos adicionales de utilización del principio no desplazado 
(además de los resultados obtenidos en el $ 3.6) se pueden hallar en [57]. 

3. Juvariación. Hemos visto que la intersección de la clase completa, 
engendrada por las decisiones “suficientes”, con la clase de decisiones no 
desplazadas puede constar de una sola estrategia. La clase de reglas de deci- 
sión invariantes es otra clase natural de estrategias, en la que puede resultar 
la única decisión inmejorable (compárese con los $$ 2.18, 2.19 y 3.7). 

La definición del problema invariante de decisión estadística está rela- 
cionada con los grupos de transformaciones en los tres espacios que partici- 
pan en la definición del juego estadístico: en los espacios D y € y en el 
espacio muestral 2”. La definición se basa en las transformaciones biunl- 
vocas medibles g del espacio 2” en sí, que forman cierto grupo G con 
la operación de grupo definida como una composición: si 1, € G y ¿€ G, 
entonces g281 se define como una transformación x > g2(g1x) que otra vez 
debe pertenecer a G. Designemos por e la transformación idéntica. Sin em- 
bargo, la transformación g”' inversa a g se define como una transforma- 
ción para la cual g”!'g = e. La mensurabilidad de g € G significa que gX, 
junto con X, será una variable aleatoria en 2”. 

Con el grupo introducido G está estrechamente relacionado el concepto 
de invariación de la familia Ps que hemos definido en los $$ 2.19 y 3.7. 
Este concepto significa que para g€ G y 0€ 9 habrá un elemento 0, € O 
tal, que 

Po(2X € A) = Po, (X € A). (2) 

__ Las transformaciones g del espacio € en sí, definidas por la igualdad 
80 = 0,, al cumplirse la condición (40) forman el grupo G (véase el $ 2.19). 


En términos de las esperanzas matemáticas, la condición (2) significa 
que para cualquier función integrable y, 


Mev(zX) = Mo v(A). 3) 
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Definición 2. El problema de decisión estadística, relacionado con el 
juego estadístico (2, O, w), (A, Ps), se llama problema invariante respecto 
al grupo G, si la familia Po es invariante respecto a G, y la función de 
pérdidas vw es invariante respecto a G en el sentido siguiente: para cuales- 
quiera $€D, 2€ G existirá el único 6' € D tal, que 

w(5, 0) = w(5”, 20) para todos 0€8. (4) 


El valor 5”, unívocamente definido respecto a g, Jo designaremos por 
8'6. 

Lema 1. Las transformaciones g*' del espacio D en sí engendradas por 
el grupo G, forman el grupo G”. 

Demostración. Mostraremos que la población G* de todas las transfor- 
maciones g” está cerrada respecto a la composición y que además es válida 
la igualdad gígí = (8281). 

En efecto, 

w(S, 0) = w(gí 5, 810) = w(gí gí 6, 82810) = w((g281)*0, (228130). 
Como (g221) = £281, entonces, en virtud de la unicidad, (£281)' = 87 gí. 
Bl lema queda demostrado, 

Así pues, con el principal grupo G de las transformaciones g del espacio 
2” en sí, están relacionados otros dos grupos G y G* de transformaciones 
de los espacios O y D en sí. El empleo simultáneo de las tres transforma- 
ciones £, g y 8” deja inalterable (invariante) el problema de decisión. Por 
eso es natural elegir tales reglas de decisión que no varíen al pasar de un 
problema de decisión equivalente a otro. En los $$ 2.18, 2.19 y 3.7 ya hemos 
analizado muy detalladamente la naturaleza de tal enfoque. 

Definición 3. La función de decisión 5(X) del problema invariante de 
decisión se llama invariante si 


5480 = 2500. 

La regla invariante randomizada w(X) se define como cualquier distri- 
bución concentrada en Jas reglas invariantes de decisión. 

Ejemplos de utilización del principio de invariación se ofrecen en los 
$$ 2.18, 2.19 y 3.7 ya mencionados, donde hemos examinado las estima- 
ciones equivariantes y los criterios invariantes. Es preciso señalar cierta pe- 
culiaridad de estos dos casos particulares desde el punto de vista del 
enfoque general, 

En el problema de estimación, el grupo de transformación G' no se 
ha introducido en absoluto. En este caso, los conjuntos D y € coinciden, 
y desde el principio se suponía que g'ó = gó. Por eso hemos definido las 
estimaciones equivariantes con ayuda de la igualdad 0"(2X) = £0(X). 

En la feoría de verificación de hipótesis se suponía que la transforma- 
ción £” era igual a la transformación idéntica g” = e, por lo tanto, el crite- 
rio invariante ” podía ser definido por la relación (2X) = r(X). 
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En este caso, para la invariación del problema de verificación de dos 
hipótesis [9 € 91] y [9 € O) también es necesario suponer (véase (4)) que 
209; = O. 

Precisamente debido a la existencia de cierta diferencia en estos dos en- 
foques se explica, en cierta medida, la utilización de dos términos diferen- 
tes: “equivariación” (para las estimaciones) e “invariación” (para la 
verificación de hipótesis) para designar las reglas de decisión invariantes. 
Adicionalmente a los ejemplos de problemas invariantes de decisión, exami- 
nados en los capítulos 2 y 3, citaremos uno más. 

Ejemplo 1. Supongamos que X€E €, ... Aquí O es el semiplano 
[0 = (a, 0): v >0]. Sea D la recta real R, y sea w(5, 0) = (5 — a)*/0”. 

Examinemos el grupo G de transformaciones £Í»X =a + bX = 
a (a + DX1, ..., a + bxa), donde b + 0. La variable aleatoria g.,4X en 2” 
puede, evidentemente, considerarse como una muestra de €, ,». pra Por 
consiguiente, la familia d,,.. es invariante respecto a G, si se pone 
£a.»0 = (a + ba, lblo). La función de pérdidas será invariante si ponemos 
£4sób = a + b5, puesto que 


w(£a,50, 8a,90) = are tar 


> = w(65, 0). 


Ahora bien, tenemos un problema invariante de decisión respecto a G. 
Las funciones invariantes de decisión 5(X)): 27” — R deben poseer la pro- 
piedad 


5(a + bX) = Ags, XA) = Ea. X) = A + DOE(X). (5) 
Seguidamente, no es difícil establecer que el problema de decisión some- 
tido a examen también es invariante respecto al grupo F de todas las permu- 
taciones f de las coordenadas del vector X; en este caso, f y f” serán dos 
transformaciones idénticas. Por eso, si exigimos, que la función 5$(X)) tam- 
bién sea una decisión invariante respecto a F, entonces también debe 
cumplirse 
YA) = A). (6) 
Nótese que la clase de funciones que satisfacen (5) y (6) aún es bastante 
amplia: en ella entran, por ejemplo, todas las formas lineales 


sdX) = y AX)» y ar = 1, 
kwi Kw! 


donde x¿1), ... » Xqm) es la serie variacional de la muestra X. Si utilizamos 
el principio de no desplazamiento, obtendremos una condición más para 
los coeficientes ax: 


z aMolxa) — a) =0. a 
ul 
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Al construir las decisiones invariantes óptimas en la teoría de estima- 
ción y en la teoría de verificación de las hipótesis estadísticas, desempeñan 
un papel muy importante los conceptos que, en cierto sentido, se asemejan 
uno a otro: el concepto de órbita en la teoría de estimaciones, y el concepto 
de invariante en la teoría de verificación de hipótesis. Recordemos que por 
órbita en el espacio O se entiende el conjunto (£00o, Z€ G), donde 00 es 
cierto punto de O. Con otras palabras, 6, y 0, pertenecen a una misma 
órbita, si existe Y = C tal, que 0, = g62. 

Análogamente se pueden definir las órbitas en 2””. Entonces son inva- 
riantes, por definición, las estadísticas constantes en las órbitas en 2””. 

El concepto de órbita también conserva su importancia en el caso 
general. 

Lema 2. La función de riesgo del problema invariante de decisión para 
una regla invariante de decisión, es constante en la órbita: 

_ W(8(:), 6) = W(S(-), 50) 
para todos 0€ 0, E€ G. 

Demostración. En virtud de la invariación respectiva de la función de 
pérdidas, de la regla de decisión y de la familia Pa (véanse (3) y (4), 
tenemos 
W(53), 0) > M9, 9) = Mowl2g' 500, £0) => 

= Mew(5(gX), 89) = Mio w(S(AO, 80) = W(3(-), 26). < 

La constancia en la órbita de riesgo para las reglas de decisión invarian- 
tes randomizadas se deduce de su definición y del lema 2. 

De este último resulta que en el caso de que todo el espacio O sea una 
órbita (es decir, O = [£00, 8 € G) para cualquier 0p; esto tiene lugar, por 
ejemplo, para las transformaciones de desplazamiento), la regla invariante 
de decisión será una regla igualadora. Por eso, del lema 2 y de los teoremas 
2.3, 2.5 obtenemos directamente la siguiente afirmación que establece una 
relación importante entre la invariación y el carácter minimax. 


Teorema 2. Supongamos que el espacio O es una ¿órbita y que existe 
una distribución a priori Q, para la cual la estrategia bayesiana «y(X) es 
invariante. Entonces xro(X) será una estrategia minimax. 


Del teorema 3.3 se desprende que tiene lugar la siguiente generalización 
del teorema 2. 


Teorema 24. Supongamos que existe una distribución a priori Q, con- 


centrada en una de las órbitas, tal, que la estrategia Oo bayesiana ro(X) 
es invariante. 


Entonces, si para todos 0, 


W(ral), 0) < Wira(), 90), 60 € Do, 
entonces rg(X) es minimax. 


Este criterio fue utilizado en el $ 3.9. 
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$ 6. Estimaciones asintóticamente óptimas para 
una función de pérdidas arbitraria 


Muchos de los resultados de las estimaciones asintóticamente óptimas (ca- 
pítulo 2) y de los criterios asintóticamente óptimos (capítulo 3) admiten 
generalizaciones cn la función de pérdidas, de forma muy general. 

En este párrafo investigaremos los problemas de la teoría de estimación 
y supondremos que w(ó, 0) = w(5 — 0). 

Hagamos primeramente una observación general. En el capítulo 2 he- 
mos visto que en el caso general (X E Pp, Po satisface las condiciones 
(RR); véanse los $$ 2.24 y 2.28), todas las estimaciones racionales 0” = (AX) 
del parámetro 6 están “concentradas” en el entorno 1/vn del punto 0. Así, 
por ejemplo, ¡para las estimaciones  asintóticamente normales, 
(0* — 6)Vn € €, caco) De aquí se deduce que, para amplias suposiciones 
respecto a la función w(f), el comportamiento asintótico del riesgo 
Mow(0" — 6) será determinado por las propiedades de la función w(f) en 
el entorno del punto f = 0. Si w(f) es dos veces continuamente derivable 
en el cero, w” > 0, entonces, para 1 > 0, 


w(f) = mo P + 0(8). 0) 


Esto significa que en la región de valores de f (del orden de 1/vn) que 
nos interesa, la función w(?) se comportará igual que la función cuadrática 
de pérdidas wo(t) = ct?, cuando e = w” (0)/2, para la que han sido estable- 
cidos los resultados del capítulo 2. Si, además, w(f) < el el? , Siendo bas- 
tante pequeño «a > 0 (véase el teorema 2.28.6), todos estos resultados 
mantendrán su validez, ya que su traslado al caso de la función w(f) de 
forma (1), es cuestión de una técnica no complicada, completamente al al- 
cance del lector. 

En este párrafo examinaremos una generalización mucho más sustan- 
cial. Supondremos que la función de pérdidas w(5, 0) dependa de n y que 
la misma es representable en la forma 


w(5, 6) = wa(8 — 0) = m(Yn(5 — 0), (2) 


donde la función w(£) > 0 está definida en todo el espacio R*. Es evidente 
que en este caso serán esenciales los valores de w(t) en toda la región de 
los valores de !, 

Admitiremos que la función w en (2) satisface las condiciones si- 
guientes: 

1) w(1) < ec!!! para cierto c > O. 

Tal forma de condición 1) simplifica algo los cálculos. En efecto, todos 
los resultados conservarán su validez si exigimos que w(£) < cje«r!t1? cuan- 
do «+ > 0 es bastante pequeño. 
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Posteriormente desempeñará un papel muy importante la función 


- Lota? 
Vals) = [ w(s — u)e 1 du, 
donde o? es cierta matriz de segundos momentos, definida positivamente. 


La función V..(s) puede interpretarse como 
£/2 
Vals) = Sr Mws- E, EE Bo. 


En vista de que 
- y (a - ula (s- vy? 


Vals) = j w(u)e du, 
esta función será la función analítica de las variables s y o”. 

También necesitaremos las condiciones: 

2) La función V,x(s) alcanza su valor mínimo respecto a s en un solo 
punto que designaremos por b. 

3) Dm = Y, 

4) La función w(t) es continua. 

La condición 2) se cumplirá a ciencía cierta si w(s) + const es una fun- 
ción convexa hacia abajo. En este caso V,.(s) será, evidentemente, también 
convexa y no contendrá partes “lineales” (o sea, la matriz de segundas deri- 
vadas será por doquier definida positivamente). 

La condición 3) será cumplida si 


1 Tr 
V¿(0) a - [uwuje A En O, 


lo cual siempre tendrá lugar para las funciones simétricas w(u) = w(-— u). 

El valor de b,, podría llamarse desplazamiento de la función de pérdida 
w. El mismo satisface la ecuación V¿(b,) = 0. La condición 3) acerca de 
que 5b,, = O no es esencial y sólo simplifica la exposición, que el lector tam- 
bién puede extender fácilmente al caso de bw» s* 0. Las modificaciones que 
en este caso tendrán lugar en los enunciados de los teoremas, serán ilustra- 
das en la observación 2 correspondiente al teorema 1. 

Recordemos ahora en qué se transformarán las definiciones de las estra- 
tegias óptimas expuestas en los $6 2 y 3. La estimación 0% será bayeslana 
respecto a la distribución a priori Q con densidad q respecto a la medida 
de Lebesgue (y a la función de pérdidas w,) si 


[ WR, Hala: = mín | W(0”, datar, (3) 


donde W(0”, t) = M.wa(0" — £). Aquí la integral del segundo miembro (3) 
puede escribirse en forma de la esperanza matemática incondicional 
Mwn(0* — 0), donde la promediación se toma respecto a la distribución 
con densidad f.(00q(0. 
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La estimación 0” será minimax si para cualquier otra estimación 0”, 
sup W(Ó*, 1) € supW(O”, 1). 
S t 


Lo dicho hace naturales las siguientes definiciones que son completa- 

mente análogas a las dadas en el $2.11. 

Definición 1. Llamaremos asintdticamente bayesiana la estimación 0” si 
lím sup [Mw»(6” — 0) — Mwn(0G — 0)] < 0, (4) 
nm 

donde 0% es la estimación bayesiana. 
Definición 2. Llamaremos asintóticamente minimax la estimación 46;, 
si para cualquier otra estimación 0”, 
lím sup [sup W(0;, f) — sup W(0”, 0] $0, (5) 
ne (€ reG. 
donde Oo es cualquier subconjunto cerrado que se encuentra dentro de 8, 
Al estudiar las estimaciones asintóticamente óptimas en este párrafo, 
sólo utilizarernos los conceptos introducidos en las definiciones 1 y 2. Esto 
constituye cierta diferencia del capítulo 2, donde también estaban presentes 
las estimaciones asintóticamente eficientes. Aquí su ausencia se explica por 
el hecho de que para las funciones arbitrarias de pérdidas w no disponemos 
de desigualdades del tipo de Rao — Cramer para inf W(0”, 0) (Ko es la 
¿Ko 


clase de estimaciones no desplazadas), con ayuda de la cual era posible, 
valiéndose del valor de W(0”, 6), juzgar acerca de la calidad de 0” y destacar, 
en particular, las estimaciones eficientes (y asintóticamente eficientes), o 
sea, las estimaciones uniformemente mejores en la clase Ko. 

Las afirmaciones siguientes establecen que la estimación de verosimili- 
tud máxima es, al igual que en las condiciones del capítulo 2, asintótica- 
mente bayesiana y asintóticamente minimax. Además, obtendremos la 
frontera inferior asintótica para la función de riesgo al ser arbitraria la 
función de pérdidas w (la desigualdad de Rao — Cramer proporciona la 
frontera inferior exacta). En los tres teoremas ulteriores supondremos que 
se cumple la condición (RR). 

Teorema 1. Supongamos que X € Po, 0” es la e.v.m., y que 09 es una 
estimación bayesiana correspondiente a la función de pérdidas w (véase 
(2) que satisface las condiciones 1) — 3), así como a la distribución a priori 
Q con una densidad q limitada respecto a la medida de Lebesgue. Entonces 


109 — 0*1vn >0, (6) 


(0% — Va E Loj-«w (7) 


es uniforme respecto a 0 € Oo; Oo cualquier subconjunto cerrado, situado 
dentro de O, en el que q(0) > Jo > 0 es continua. 
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Si además, la función w satisface la condición (4), entonces 
Mwal6% — 0) = M0 — 0)) + Mtro) = M Liz VIO), 0) 


donde ye E Po :-un» 0 € Q; M, como antes, designa la esperanza mate- 
mática incondicional cuya densidad constituye fx) q(O (X € P., 0 E Q). 

Observación 1. A la par con la convergencia (6) también se puede es- 
tablecer una convergencia casi segura respecto a Ps. 

Observación 2. Si w es tal que el desplazamiento b, y 0, la afirmación 
del teorema 1 quedará válida por completo, siempre que 62 en (6), (7) y 
(8) se sustituya por 9% — bw/vVn. Ahora bien, b,, tiene sentido de desplaza- 
miento asintótico de la magnitud (04 — On. 

Teorema 2. Supongamos que la función w satisface las condiciones 
1) — 4). Entonces, para cualquier estimación 0”, 


lím inf sup M.w,(6” — t) > sup Mw(n,), (9) 
n>00 160. (€0. 
US Po 1-0): 
Cualquier estimación 0” para la cual 
M¿wn(6* == £) => Mw(n:) (10) 


uniformemente respecto a t, es asintóticamente minimox. 


Teorema 3. Supongamos que X E Po y que la función w satisface las 
condiciones 1) — 4). Entonces, la estimación de verosimilitud máxima 0" 
es asintóticamente minimax y asintóticamente bayesiana para cualquier 
distribución a priorl Q cuya densidad q es continuamente positiva en el 
punto 0. 


Todas estas afirmaciones son absolutamente análogas a las afirma- 
ciones correspondientes del capítulo 2, ya que las mismas contribuyen a 
la verosimilitud de la suposición de que también para la función de pérdidas 
arbitraria w que satisface las condiciones 1) — 4), la e.v.m. es la mejor esti- 
mación asintóticamente uniforme en la clase de estimaciones asintótica- 
mente no desplazadas (compárese con los $$ 2.25 y 2.28). 

Demostración del teorema 1. En virtud del principio bayesiano, la esti- 
mación bayesiana se define como el valor 6Q que posee la propiedad 


f Wwa(09 — Da(t/ X)dt = mín [ wn(u — 1)q(t/ X)dt = 
u€ 


= mín [w(Vi(u — 0) — ve - oy LD _ 
nin [ w(Yn(u ) — val Y OLCOd 


Esto significa que en calidad de (05 — 6) Vn m u¿ se puede tomar cualquier 
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valor s con el cual se alcanza mín U(s), 


U(s) = í w(s — v)q (e + +) z (5) dv, (1) 


donde, como antes, Z(/) = eS. 


Necesitaremos las afirmaciones acerca del comportamiento asintótico 
de U(s). En los $8 2.28 y 2.29 hemos establecido (teorema 2.28.5) que, al 
cumplirse las condiciones (RR), 


U(u") = e" g(ó* Vo) + ext Xx, 0)), (12) 
donde egn(X, 0) $ 0 uniformemente respecto a € (aquí hemos sustituido 


o Mw(é) por Vie, y q(8) por g(6*). 


Nótese ahosya que 
P(Yni09 - 61 > 6) => P(lug —- u“l>e< 
< P( mín U(s) < UM). (13) 
l-e" Us 
En vista de que tenemos la representación asintótica para U(u”), aquí debe- 


mos estimar el valor de U(s). De los teoremas 2.28.4 y 2.29.3 se deduce 
que para la sucesión arbitraria ó, —> 0, cuando lvl < 5,vn, 


in 2 (7) = Y(u*) — 7 (uv — u¿YONw - u YY + EX, 6, u), 


lenlX, 0, dl <eP(X, 9) 7 0 uniformemente respecto 6. Pero 


U(s) > Un(s) a | w(s — vd (e + $) Z (+) dv. 


lu-u4 "18, YA 
Examinemos el conjunto 


Ar <a, a (0+ 5) > 00 0]. 
e >0, 


que posee, evidentemente, la propiedad 
PAAn) > 1. (14) 
En este conjunto, uniformemente respecto a 0, 


Uns) > (1 - eaónNee x 


X w(s — v) exp (- 5 (v — uv — uy + o] dv = 
lvu—-u | «38.vVn , 
= (1 - an)“ [Vroa + els — 4%) — rals)l, (15) 
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donde, según la condición 1), 


ra(s) = w(s — y) exp [- 70 = Y YM — uy x 


A 
ma QryO 
n € POUINa + 0)» 


donde d es el diámetro de la región 9. Al igual que en el lema 2.23.1, es 
fácil convencerse de que 
P(Inl > 8,aVa) e "% a >o0. 
Eligiendo 6, = n”??, obtenemos que, para todos los valores de s y con 
valores de n bastante grandes, 
ras) Le”. (16) 
Ahora utilicemos las condiciones 2) y 3) en virtud de las cuales 


mín Vuo(s — u) > Vio (0) + 47, 7 = (e) > 0. 


li-v ls 


En virtud de las propiedades analíticas de V,.(s) obtendremos que, para 
valores de q bastante pequeños, 


mín Vrina+ pls — 40) > Vio (0) + 37, 


is-u ze 
y en virtud de (15) y (16), para X' € A, y para valores de nr bastante grandes, 


¿mín US > 0 0J)a(ó “re “IV KO (0) + 27]. 


Utilizando (12) y (13), definitivamente obtenemos 
Po(Vn 10) — Ó"l > 8) < Pol Ma Un(s) € U(u”) < 
< PAX (An) + Pol(l — QJLVIo (0) + 27] € Vrio(0) + en(X, 0)). 
Eligiendo adicionalmente e, de tal modo que su valor sea tan pequeño 
que contribuya al cumplimiento de (1 — q)27 — Vie(0) > 7, obtendremos 
P(VaI0) — 6*l > 6) < PAX An) + Polen(X, 0) > 7) >0 


cuando n-» oo. En virtud de (12) y (14), la afirmación (6) queda de- 
mostrada. 


De (6) y de los teoremas del $ 2.29 se desprende (7). Demostremos ahora 
la relación (8). En virtud de (7) y de la propiedad (4), 


w(Yn(09 — 0)) > w(ne), ne E Po.r- 9) 
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Según el lema de Fatou, 
lím inf M,w(Vn(0% — O) > Mw(»), 


rn». 


lim inf Mw(Vn(99 — 0)) > | a()Mw(nddt = Mw(n;) - Mw(no). 
Por otro lado, según la definición de 07, 

Mw(Vn(02 — (0) < Mw(Vn(0" — 0)) — Mw(70). 
La última relación se deduce de la convergencia uniforme 
M.w(Vn (0* —£)) > Mw(7;) demostrada en el $2.29. El teorema queda de- 
mostrado. 

Demostración del teorema 2. Tomemos la distribución Q concentrada 
en Oo, con una densidad limitada q(£) > 0 para 1 € Oo, y sea Oy la estima- 
ción bayesiana correspondiente a Q. Entonces, para cualquier estimación 
0”, 
sup Mownf0" — 1) > | Miwn(6” — £q(tdt > 
(€ 


> Ñ Miwa(00 — 1)a(t)d: = Mwn(09 — 0). 


Según el lema de Fatou, en virtud de (8), 
lím inf sup M¿w,n(0” — 1) > lím inf Mw,(09 — 0) > Mw(no) = 
A nm 


A=>0 SE 


= ] Mw(a)q(ddt. 


Como la función Mw(yr) = an Vro(0) es continua respecto a tf, enton- 
T 


ces, eligiendo qg(f), podemos conseguir que la integral 
] VO Vio (0) (Dat 


se asemeje tanto como se quiera a sup VI(£) Viy(0) = sup Mw(y,). Esto de- 
muestra (9). e ¡de 
Ahora supongamos que la estimación 6; posee la propiedad (10), y que 
0” es cualquier otra estimación. Entonces, en virtud de (9) y de la convergen- 
cia uniforme (10), 
lím sup [sup M,w»(9í — 1) — sup Mwn(0” — 1] S 
(€. nO. 


A—uw 


< sup lím M,wn(61 — f) — sup M» (711) = 0. 
1€0. 


(609 ro 


La desigualdad ($) de definición del carácter asintóticamente minimax, y 
junto con ella el teorema 2, quedan demostrados. 
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Demostración del teorema 3. El carácter asintóticamente minimax de 
$" se desprende del hecho de que para la ey.m. 6”, según el teorema 2.29.4, 
es válida (10). 

El carácter asintóticamente bayesiano de 6” se deduce del hecho de que 
para 0” = 0" se cumple (4), ya que para Ó* tiene lugar la convergencia uni- 
forme (10) y, por lo tanto, 

lim Mw(Ó" - 0) = Mín [ Miwn(Ó" — Da(tdt a 


nu 


= Mw(no) = lím Mw(0) — 9). 


La última igualdad resulta de (8). El teorema queda demostrado. 

La afirmación del teorema 1 puede ser reforzada si se exige adicional- 
mente que la función w(f) aumente con bastante rapidez. Para esto, desig- 
nemos Wy s mín w(1) y Wu = máx w(f) y examinemos la condición 

n> de 


5) Existe y < 1 tal, que ws > 2W.y para todos los valores de N bastante 
grandes. 

Si cuando |fl — oo, w(t) crece como función potencial o exponencial, 
entonces se cumple la condición 5). 


Teorema 4. Si se cumplen las condiciones 1) y 5) cuando q(t) > qo > O 
en el conjunto cerrado Oo, y cuando q(t) € Gm < o, entonces, para ciertos 
valores de c< «o y de a >0 que no dependen de t, 


PUVn(0% -1>N) £ ce", 1600. 


De aquí y del teorema 1 se deduce que para cualquier función continua 
v(£) tal, que lu(1)! Se” “2, es válida 


Mev(Vn(09 — 1) > Mula), 1€ 0. 


u(r) = w(- vu) (e + =) z (2) dv 
les va vn 


(ésta es la parte de la integral U(0) que se encuentra en la región lu! > r. Para demostrar 
el teorema 4 necesitaremos el 


Designemos 


Lema 1. Sí w(1) satisface la condición 1), y qu = máx q(u) < eo, entonces, para ciertos 
EA 
B>0ya< o que no dependen de 0, así como para todos 0<5<1, 
Pols(r) > 8) < 5 ect”. 


Esta desigualdad quedará válida para w(t) ua 1. 
Demostración. Tenemos 


P >5c<P zZl- e 
e(u(r) ) € P», (so. ( 2) > 1 + Pour) > E, ne Cs A) < ) E 
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La estimación del primer sumando se da en el teorema 2.23.2, en virtud de la cual este suman- 
do no pasa de ce” ”%, 8 > 0. El segundo sumando no supera 


P. | w(— ue (e + +) zZ (5) dv > .) , (17) 
lolar 


Como, en virtud del teorema 2.23.1, 


MaZ!*? (5) £ euotB B > O, E 


la esperanza matemática de la integral en (17) no superará (véase el lema 2.23.1.) 
Qu “ieio- 2d 08, < ae”. 
lvl >r 


Por eso, en virtud de la desigualdad de Chébishev, la probabilidad (17) no supera 
cre" 7/4 El lema queda demostrado, 
Designemos por u,r el valor de la integral u(r) cuando w(f) m 1: 


ur) = (e a) z ( > ) dv. 
0 A d Va va 


Lema 2. Si q(0) > O en el conjunto cerrado Oo, entonces, con cierto b < w que no 
depende de 0, para cualquer e > O y para todos los valores de n bastante grandes, 


Po(us(0) < 8) < be”, 0€ 0. 
Demostración. Para todos los valores de n bastante grandes tenernos 


u1(0) > a(s- 2) 2(57)00> 
A va va 
> o exp (0. z - 10%, oo 
En ( vn 


= Go Í exp (e. Sn) + 5 ero] dv, 
MES! 
donde 


PO LX, Dd, ya =L1LAX, DL 
1€0. n n 


6 =0+ qua" *?, lel < 1. (Aquí L* es el vector de las derivadas de la función logarítmica 
de verosimilitud; LG, las derivadas parciales de segundo orden.) En vista de que lv, 
fa! < lvllgn! y como, en virtud de las condiciones (RR), 


1] k 
2 
Luyav”| = y 1600) Y Inu! E La 
£Jm1 


fw1 


ES 
donde £, = A I(x0), entonces, en el conjunto A = (Ifal € 1/4 La < n/e*k) es válida 
leal 


2 1 
u1(0) > Go | Ss du > Qo08 | a 


e 
MEY lelGe”! 


34—.8030 
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Esto quiere decir que tiene lugar el encaje (u(0) < cre] C A. Como 


PAA) € Po(lzal > £7') + Po (2 > q) < ¿Mol fal? + ER MoLn, 
e K n 


A 
Molgn1? = Y) 7:40), Mola = nMoiGu), 


len 
entonces 


PA) £ cre”. 
El lema queda demostrado. 
Demostración del teorema 4. Designemos por M, el conjunto de puntos s en los cuales 
se alcanza mín U(s) (o sea, el conjunto de puntos (04 — 6)Vn; véase (11)) ”. Entonces, 
(M. CD) = le U(s) < min U(s). (13) 
seD séD 
Por consiguiente, 


¡val0) — 01 > 2NI = Í mín  U(s) < Dr ue) c o Us < uo). 
s.6 


tsl>2N sa 
Aquí 
u u 
ín U(s) > Wa 0+<1ZÍ| =<] du = wn(u1(0) — 41 (N)), 
Sa ide Gel 2) (+) 
we mín w(s — u)= mín w(). 

Ish>2N hi>N 

lal<N 
Seguidamente, 


U(O) = ¡ Wu) (e + =) Z (+) du £ (u1(0) — u(M)Wu + u(M), 


donde Wi = máx w(£), 
WNGM 
De aquí obtenemos 


(Yn103 — 81 > 2N] C (ws(u1(0) — MN) < wistui(0) — u(M)) + u(M)) C 


WN uM) U(N)wn 
c (E 1) ur(0) < Wu + Ue + 00). 
En virtud de la condición 5) escojamos M = yN, y < 1 de modo que wn > 2 Wa, para todos 


los valores de N bastante grandes, Además, hagamos uso de las desigualdades Wwe > 2 (para 
valores de M bastante grandes) wa < w(N) < e*%. Entonces es evidente que 


(Yal90 — 01 > 2N) C 12:(0) < u(yN) + u (Ne). (19) 
En virtud del lema 1 hallamos 


P. (uc > je") < 2ae NY + 


P. (uo > perro) < 2ae" Nan eN 


=) En vez de M, se podría examinar, por ejemplo, el menor punto (según la norma) en 
el que se alcanza min U(s). 
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Escogiendo a < 507 obtenemos que, para valores de N bastante grandes, de (19) resulta 


Pa(Val6% — 01 > 2N) £ 4ae""" + Pa(ur(0) < e7%). 
Sólo nos queda hacer uso del lema 2, en virtud del cual 
Po(u1(0) < eN) q hector, 
El teorema queda demostrado. 


$ 7. Criterios estadísticos óptimos para una función 
de pérdidas arbitraria. Criterio de la relación 
de verosimilitud como decisión asintóticamente bayesiana 


1. Propiedades de optimización de los criterios estadísticos para una fun- 
ción de pérdidas arbitraria. En los párrafos precedentes hemos visto que 
muchos resultados principales de la teoría de estimación conservan su vali- 
dez cualitativa al pasar a problemas más generales de la decisión estadística 
con pérdidas w(5, 6), ¿5€DCR*,0€8 CRY, distintas de las cuadráticas. 

El mismo cuadro se observa también en la teoría de verificación de las 
hipótesis. En el $4 hemos visto que las reglas de decisión óptimas para 
los juegos con conjuntos finitos D y 9 y con función de pérdidas arbitraria, 
tienen la misma forma que los criterios óptimos para verificar un número 
finito de hipótesis simples, examinados en el $ 3.1. Los resultados de los 
$$ 3.5—3.7, 3.9, 3.11, 3.13—3.15 también conservarán, en lo fundamental, 
su validez. En particular, los teoremas de los c.u.m.p., enunciados en los 
5$ 3.5—-3.7, se transformarán en afirmaciones de las estrategias uniforme- 
mente mejores en los juegos estadísticos correspondientes (9 c R*, 
D = (61, 52) es bipuntual), en los cuales, sin embargo, la función de pérdi- 
das w(S:, 0) = w¡(0), wi(0) = O para 0€ 0,, ¡= 1, 2 ya no será obligato- 
riamente estadística (w:(0) = 1 para 040;), sino que tan sólo satisfará 
ciertas condiciones muy generales (por ejemplo, las propiedades de creci- 
miento monótono de wi(0) al alejarse 0 de O,). Bl papel de las clases K,, 
en las que hemos buscado los c.u.m.p., lo desempeñarán las clases de fun- 
ciones de decisión r(A), con valor máximo fijo e de las “pérdidas de primer 
género”: 


e= sup W(x(»), 6) = sup w.(0)Mox(X, 57). (1) 
0608, $401 


Se minimizará el valor de las “pérdidas de segundo género”: 

W(x()3, 0) = w:(0)Mor(X, 51) para 0€ 0. (2) 
Aquí x(X, 6,) significa la probabilidad de tomar la decisión $, a base del 
criterio x. Para abreviar la notación, pongamos, siguiendo el capítulo 3, 
T(X, 62) = mA), así que r(X, 61) a 1 — xr(X). La designación del criterio 
y del número x(X, 52) con ayuda de un solo símbolo r(X) es cómoda y, 
como hemos visto antes, no produce equivocaciones, 
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Bn (1) y (2) se buscan los extremos de las expresiones que se distinguen 
de las expresiones correspondientes para las funciones estadísticas de pérdi- 
das, tan sólo por los factores que no dependen de (AX). Si estos factores 
poseen la propiedad natural de monotonía, entonces, al pasar al problema 
definido por (1) y (2), la exposición de los $$ 3.5—-3.7, 3.9, 3.11 no variará 
considerablemente. 

De hecho, también variarán poco los resultados de carácter asintótico 
en los $$ 3.13—3.15. En este párrafo examinaremos más detalladamente la 
generalización para el caso de una función de pérdidas arbitraria de los 
resultados del $ 3.13 y nos convenceremos de que esta generalización real- 
mente no exige ningunos esfuerzos adicionales. 

2. Cr.v. como criterio asintóticamente bayesiano, Examinemos el juego 
estadístico (2, O, W) en el que O es continual y constituye un conjunto 
compacto convexo en R*, mientras que el conjunto D de estrategias del 
estadista es bipuntual: D = (6,, 52). La función de pérdidas w(¿, 0) tiene 
la forma siguiente: 


O, => 61, 
w(51, 6) = O 6 97 6,, 
a META 


donde 6, es un punto interior fijo de 8. Cuando mw = w;(0) = 1 esto 
corresponde al problema de verificación de la hipótesis simple 
H, = (0 = 0,)] frente a la alternativa adicional Ha = (0 x 0, ). 

Para hallar, utilizando el principio bayesiano, la forma de decisión baye- 
siana, examinemos el juego corriente (D, O, w) y supongamos que en 9 
se da una distribución Q tal, que q = Q((09:)) > O (planteamiento baye- 

, - ql 
siano completo del problema). Designemos Q» = qe , donde lo es 
una distribución degenerada concentrada en el punto 6. Entonces 


(61, Q) = (1 — q) [m(0Quídr), 15(82, Q) = qu. 

Esto quiere decir que la estrategia bayesiana rot62) = 1 si 

(1 — y [mi)0zdr) > qm, (3) 
y To($;) = 1 si tiene lugar la desigualdad inversa. La relación (3) puede 
escribirse en la forma 

Í wd > 0, 

donde 
w() para 1tx0,, 


Dd e para f=0. 
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En virtud del principio bayesiano, la regla bayesiana de decisión ro(X) 
tiene la forma ro(X) = 1 si 
[ w()Qx(de) > 0, 
donde Q., es la distribución a posteriori. Supongamos que Md1) = dt para 
01, M(01)) e 1, y que la distribución Q» tiene una densidad qa(1) res- 
pecto a la medida de Lebesgue. Entonces, la distribución Q tendrá una 
densidad q(t) respecto a A, igual a (1 — q)q1(1) para 1  6,, e igual a 
q(t) = q para  = 0,. Esto significa que la densidad a posteriori respecto 
a la medida A será ¡igual a 
FA) att) 


q(/X) = 700” 
KA) = [SO q(u)Mdu). 


Por consiguiente, la regla bayesiana de decisión rog(A) ticne la forma 
TO(A) = 1 si 
1 -— DF widCO (dt > wet (X. (4) 
El riesgo de esta regla es igual a 
Wiro(), Q) = quaP.o (ro(X) = 1) + 
+ (1 - q) [ m(0q200)P.(ro(X) = 0)du. 
Comparando estas relaciones con el contenido del $ 3,13, vemos que la re- 
gión (4) de toma de decisión $2 tiene aquí la misma forma que la región 
Q(c) en (3.13.3) cuando c = wq/(1 — q) y cuando la función q(f) en 
(3.13.3) se sustituye por w:(t)q2(f). En otros términos, 
ll si rua(A) ><, 
TAX) = iy sl ri) =<c, (5) 
O, si raíA) <C, 
donde 
e Í wi(0gau0yi A) at _ q 
ra X) Se(X) ES TG 
Luego, siguiendo los razonamientos del $ 3.13, podemos proceder del 
modo siguiente. De la población de reglas bayesianas (5) es necesario, modi- 
ficando el número q, elegir tal decisión ro(X), que tenga un valor fijo 
de "pérdidas de primer género”: 
mi[Po (ro(A) = 1) + yPo,(ro(A) = Y] = a. 
Entonces, entre todas las reglas (X), para las cuales 
ar) = mMo r(X) <€ a, (6) 
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la decisión ro(X) minimizará las “pérdidas de segundo género” iguales a 
ar(a) = (mida (Md - (Adu. (7) 


Esto es la consecuencia directa del carácter bayesiano de la decisión 
o. La comparación de los valores (6) y (7) con las magnitudes de las proba- 
bilidades de los errores de primero y segundo géneros (3.13,4.) muestra que 
otra vez se trata de distinciones no esenciales, la principal de las cuales 
consiste en que la función q(u) en (3.13.4.) se sustituye por la función 
w,(u)q2(u). Los números € y y en (5) se determinan por «a. 

Lo dicho nos permite, siguiendo exactamente los razonamientos del 
$ 3.13, enunciar las siguientes definiciones y afirmaciones. 

Definición 1. La regla de decisión r(X) pertenece a la clase K, (su ni- 
vel asintótico es l — £) si 


lím sup Mo r(X) € e. 


Esta definición, de hecho, no se diferencia en nada de la definición 
3.13.1. 
Mostremos ahora que, eligiendo q, podemos tratar de que ro €K,. 


Pongamos 
_ jr (Wear _ ON 2 m<(01)q2(01) gro, 
fo(X) y 7 


donde 1 = 1(0,) es la matriz de información de Fisher en e] punto 9,. Supon- 
gamos, seguidamente, que se cumplen las condiciones (RR), que 0, es un 
punto interior en O, y que la función w,():q2(/) es continua y positiva 
en el punto 6,, 

E (= ca mOygaó e 

AUT 
Entonces, en viritud del lema 3.13.1., para la función pc) = 
= P.(ro,.(A) > c) obtenemos 
Po(c) = Po (T(X) > 7) — Hr ((27, 00), 


Por consiguiente, poniendo q = c/(c + w>), donde c está definida en (8), 
z = h,/2, h, es una cuantila de orden Í — e de la distribución x? con k 
grados de libertad, obtenemos 


w:q 
lim po, =€ 
E ( == 5) 


y, por lo tanto, ro(X) € K. 


(8) 
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Definición 2. Para una distribución a priori dada Q, la regla de decisión 
*(X) se llama asintóticamente bayesiana en K, si ro e K,, 


lím sup 2 (M == li 


n—o o2(ro) 
Teorema 1. Supongamos que se cumplen las condiciones (RR) y que 
0, es un punto interior en 0. Entonces, en K, existe una regla de decisión 
asintóticamente bayesiana *(X) que es la misma para cualesquiera distribu» 
ciones Q2 y para cualesquiera funciones wi(t) tales, que la función 
w¡(0q2(() es continua y positiva en el punto 0, y está limitada en O. El 
criterio x es definido por la relación 


HN =1 si LO > ek?, (9) 


El teorema se demuestra exactamente igual que el teorema 3.13.1, con 
una precisión de hasta la sustitución de la función q(f) por w,(1)g2(1). El 
teorema 3.13.1 también permite hallar el valor de las ““pérdidas de segundo 
género” (véase (7)) del criterio r. 

El criterio (9) no es otra cosa sino el criterio de relación de verosimilitud. 


$8. Soluciones asintóticamente óptimas para una función 
de pérdidas arbitrarias en el caso de hipótesis semejantes 


En este párrafo examinaremos la generalización de los resultados del 
$ 3.14 para el caso de una función de pérdidas arbitrarias. Esta generaliza- 
ción será más sustancial que en el párrafo anterior, ya que las funciones 
de pérdidas dependerán de n (compárese con el $5 6). 

Supongamos que (2, O, W) es un juego estadístico en el que O CRY, 
el conjunto D = (6,, 62] es bipuntual y w(3,, 0) = w:(6), donde w;(0) = 0 
cuando 0€ 80,, ¡= 1, 2, y la intersección 89,N 0, está vacía. 

Si w;(0) = 1 cuando 0 ¿ 9;, obtendremos el problema de verificación de 
las hipótesis H, = (0 € 0,], ¿ = 1, 2. 

Determinemos la estrategia bayesiana para el juego (D, O, w). Sean Q,; 
las distribuciones en 0),, 


Q = 310: + 920, q1+q=1. 
Entonces es evidente que W(5,, Q) = [w(0Q(d1) y To(ó2) = 1 si 
[w2(NQ(d:) < [wi (0Q(dr), 
o bien 


q w(0Qu(d0) < q2[w:(9Q2d0). 
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Por consiguiente, en virtud del principio bayesiano, la regla bayesiana 
de decisión ro(A) tendrá la forma xo(A) = 1 si 


[ma()Qx(de) < [w:(0Qx(de). (1) 


Supongamos que las distribuciones Q, tienen densidades q(t), ¡= l, 
2 respecto a la medida A. Entonces, Q y la distribución a posteriori Q, 
tendrán, respectivamente, densidades q(t) = q1ai(t) + q2q21(0) y 


a 2D 0 [aca ñ Cond 


Esto significa que la relación (1) se puede escribir en la forma 


a [moon < a m(0g:(O£COMAN, 2) 


El riesgo de la regla bayesiana ro(A) es igual a 
Wiro(), Y) = m(OMro(X) + (01 — Moxo(A)), 


Wiral), Q) = [Wira(), Og(OMdO. 


Pasemos ahora a examinar las alternativas semejantes. Sea 9, cualquier 
valor fijo del parámetro 6. Al igual que en el $ 3.14 supondremos que los 
conjuntos O; tienen la forma siguiente: 


9; = 01 + T/vn, (3) 


donde TF, no depende de n. En lo que se refiere a Q;, supondremos que 
éstas están inducidas por ciertas distribuciones Il, concentradas en I', y que 
no dependen de ». Si los conjuntos I', están limitados, entonces, las estrate- 
gias de naturaleza 0 estarán situadas en el 1/Vn-entorno del punto 0,. Por 
eso, si w, (1), w(£) son continuas y wi(t) > c > 0, 7 = 1, 2 en los conjuntos 
O» y 8,, respectivamente, entonces, el juego estadístico (2, O, W) para 
tal función de pérdidas no se distinguirá (según sus propiedades) del juego 
cuya función estadística de pérdidas constituye w:(/) = 1 para t ¿8, cxami- 
nado en los $$ 3.14 y 3.15. 

Aquí examinaremos una generalización más sustancial, análoga a la eje- 
cutada en el $ 6. Supondremos que la función de pérdidas w(3;, 9) = w:(0) 
depende de n de tal modo que 


w.(0) = wi, n(0) = vi(Vn(0 — 0), (4) 
donde v;(1) son funciones medibles limitadas que no dependen de ». 


Siguiendo el $ 3.14, llamaremos problema A al problema de búsqueda 
de la solución del juego (2, O, W), descrito anteriormente, con ayuda de 
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la muestra X € P). Si se cumplen (3) y (4), hablaremos del problema A 
para hipótesis semejantes, con funciones de pérdidas v:(t). 

Examinemos ahora otro juego estadístico (Ss, IT, V) referente a la 
muestra V € 9, ,-. de volumen unitario, donde £ = /(9,) es la matriz de 
información de Fisher para la familia Pp en el punto 6,. Este juego tiene 
el conjunto bipuntual de soluciones Da = (d,, da) y el conjunto de estrate- 
gias de naturaleza (conjunto paramétrico) P' = T,UT, La función de pér- 
didas ví(d, y): Da < T — R se define por las relaciones 


v(d,, y) = v(yY), uty=0 para yel.. 


Ahora bien, en este juego, Za es la clase de todas las soluciones d(Y): 
Y = R* => Dp, 


Vd, Y = ve, y (d(Y) — di) + vane, 1-(d(Y) = d;) 


(uno de los sumandos del segundo miembro es igual a cero). Análogamente 
se escriben las pérdidas para las estrategias randomizadas (Y) en los térmi- 
nos Mxr(N), Y € Y, y... Llamaremos problema B al problema enunciado. 

Entre los problemas A y B aquí existe la misma relación que fue estable- 
cida entre estos problemas en el $ 3.14. Sea v(Y) la solución del problema 
B, óptima en uno u otro sentido (bayesiana o minimax). Y sea 6” la ev.m. 
en el problema A, y” = (6” — 6,)Yn. Entonces, r(y*) será la solución asin- 
tóticamente óptima del problema A (en ese mismo sentido). 

El "criterio límite de optimización” permite reducir el problema A a 
un problema más simple B, 

Para que lo dicho adquiera sentido exacto daremos las definiciones sí- 
guientes. Supongamos que en IT, se dan las distribuciones Il,. Pongamos 
MN = q, + q.1b, q, + 92 = 1 y designemos por Q la distribución en O, 
inducida por la distribución II y por la transformación 0 = 0, + y/vn. 

Definición 1. La solución r¡(X) se llama “asintóticamente bayesiana si 


lim sup [W(x1(-), Q) = Wíro(o), Q) < 0. 


Aquí, al igual que antes, 
W(x(>), 0) = m(0)Mor(X) + (0) — Mor), 


LACIÓN 6) == Pr), DO(AN, 
o es la regla de decisión bayesiana. 
Definición 2. La solución r,(A) se denomina asintóticamente minimax 
si para cualquier otra solución r(X) 
lím [ sup sup Pr), 6) — sup Wir). 0) <0. 


no 08 
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Aquí se podría comparar *, sólo con la regla minimax F (compárese 
con la definición 1). 

Análogamente al $3.14 también podríamos examinar las soluciones 
asintóticamente bayesianas y minimax en la clase K, de soluciones de las 
“pérdidas de primer género” asintóticas fijas: 


e = lím sup sup w1(0)Mo (40. 


Para obtener los resultados respectivos es suficiente comparar el contenido 
de este párrafo con el del $ 3.14. 

Designemos por (Y) la solución bayesiana del juego (Za, TP, V) (o 
sea, del problema B), la cual corresponde a la distribución a priori Il, y 
supongamos, para abreviar, que los conjuntos TI, están limitados. 


Teorema 1. Supongamos que en el entorno del punto 0, se cumplen 
las condiciones (RR), y que las funciones v, y la distribución Il, son tales 
que 0 < fu (WI (du) < o, 0 < fvz(u)MM (du) < co. Entonces, en las desig- 
naciones introducidas, el criterio 


00 = mty) y = (6 - 0)vn 


será la solución asintóticamente bayesiana del juego (L, O, W) (o sea, del 
problema A), la cual corresponde a la distribución a priori Q. 


Teorema 2. Supongamos que en el entorno del punto 0, se cumplen 
las condiciones (RR) y que en el problema B existe la solución minimax 
(Y) y la peor distribución correspondiente IL Entonces, el criterio 
m(X) = r(y*) será la solución asintóticamente minimax del problema A. 


Observación 1. Las condiciones del teorema de la existencia de x y IL 
en virtud de los teoremas del $ 3, serán cumplidas siempre que y, sean fun- 
ciones continuas. 

La demostración del teorema 1 es completamente análoga a la del teore- 
ma 3.14.1. De (2) se deduce que la regla bayesiana de decisión oy tendrá 
la forma ro9(A) = 1 si 


[ORMACOMEO _ q 5 

(0 MACOMAD * Y 

Í 0, + (A) 
to, (A) 


qí(OMdO = Qi(d1), Q;(0, + du/vn) = Mu(du), 
w¡(0, + u/Vn) = vu), 


Poniendo Zi(f) = y teniendo en cuenta que 


$ £. SOLUCIONES ASINTÓTICAMENTE ÓPTIMAS $39 


con ayuda de la sustitución de £ = 0, + u/vVa podemos transformar la desi- 
gualdad (5) reduciéndola a la forma 


[vu (1)Z,(u/Vn)M(du) (Zi(u/Vn)TK(du) 
__ _JNN>> >TI[ A JA ca, (6) 
' vi(u)Z(u/vnM: (du) ¡Zo (u/ Vin Mi(du) q2 
donde las distribuciones generalizadas M/(A) = fur+ (JT (du) (va(u) == 
A 


= y (u), ¿ = 1, 2) pueden ser transformadas, mediante renormalización, en 
probabilísticas, introduciendo las transformaciones 11/(4) = M(4A/M/(T) 
(según las condiciones 0 < M/(Ty) < 0). Entonces, en calidad de (5) ob- 
tendremos la desigualdad que tiene exactamente la misma forma que en 
el $ 3.14, 

Los razonamientos ulteriores de la demostración se distinguen de los 
razonamientos respectivos del $ 3.14 tan sólo por las simplificaciones. Esta 
tarea se la dejamos a cargo del lector. Dichos razonamientos se basan en 
la convergencia uniforme de (8 = 0, + y/vn) en y 


W(rol>), 9) — MOTOR v, Wim), 9) => Van), Y), (7) 


donde r.(X) = rmn(y). <a 

Para demostrar el teorema 2 necesitaremos el 

Lema 1. Sea Q la distribución a priori, y *,, la solución asintóticamente 
bayesiana que le corresponde, tal que 


limsup WTC), O) =cC, lim sup sup Yin), 5<c. (8) 


Entonces, x, es la solución asintóticamente minimax. 
Demostración. Al igual que antes, designemos por ro la solución baye- 
siana. Entonces, para cualquier solución r tenemos 
lím sup sup Wir, 6) > límsup W(x, Q) > 
€ no 


A= 00 0 


> lim sup W(xo, Q) > lím sup W(r1, Q) = 
=cC€ > lím sup sup Wiz, 0). < 


Demostración del teorema 2, Sea IM la peor distribución en T', de modo 
que T(Y) = wa(Y) sea la regla minimáx de decisión en el juego (Lg, T, 
V). Entonces, según el teorema 1, r:¡(X) = *,(y”) será la solución asintó- 
ticamente bayesiana para la distribución Q que corresponde a Il, y para 
demostrar el teorema nos es suficiente convencernos que Q y , satisfacen 
las condiciones del lema 1. a 

Designemos por Mn el portador de la distribución IM. Entonces, en vir- 
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tud de los teoremas del $ 3. 
Palo, Y=c para y€Nhn, 
sup Viral), y <<. (9) 
Pero para $ «= 9, + y/vn tiene lugar (véase (7)) la convergencia W(w1(-), 


0) > V(xa(-), y) uniforme en y. De aquí y de (9) resulta (8). El teorema 
queda demostrado. 


Suplemento | 


Teoremas del tipo de Glivenko — Cantelli 


En este Suplemento demostraremos las afirmaciones a base de las cuales se deducirán 
los teoremas 1.4.1. y 1.4.2. Utilizaremos, sin aclaraciones, las designaciones del párrafo 1.4 
en el que estos teoremas han sido enunciados. Primero demostraremos la varlante genera) 
auxiliar del teorema de Glivenko — Cantelli. 

Definición 1. Llamaremos aproximable fintra (respecto a la distribución P) la clase N 
de conjuntos de V¿-= Y”, xi cualquiera que sea e > O, para éste existe otra clase de conjun- 
tos S(c), constituida por un número finito N = N(e) de elementos Si, ..., Sy, Si € B”, tal 
que para cualquier B € R habrá conjuntos A) y Az de G(2) dotados de las propiedades si- 
guientes: 

Ás E B E Á2, 
PA: - A)<e. (1) 

Definamos sobre las clases de conjuntos, las operaciones de adición, de multiplicación 
y de complemento. Denominaremos clases Ni + N2 y Ri Ra las clases de conjuntos del po 


AUByAnB, respectivamente, donde A € Ki, B € R2. Llamaremos complemento Y la clase 
de conjuntos formada por los complementos A, A € R. 


Teorema 1. 1) Supongamos que X.a = [Xuja, Yu G P y que la clase R es aproximable 
finita, Entonces 


sup iP.(B) - P(B)| — 0. Q) 
BER Cc.) 


2) La población de clases aproximables finitas está cerrada respecto a las operaciones 
introducidas. 


Demostración. La primera afirmación se obtiene con las mismas consideraciones que 
hemos usado en el caso unidimensional del teorema 1.22. Para los valores dados de BD € M 
ye > Dexisten N = N(e) y conjuntos A, 43 dotados de la propiedad (1). Para ellos tenemos 


PA) — PB) £ Pr(Az) — P(A1) < Pr(A2) - PlAy) + e, 
P:(B) —- P(B) > Px(4,) — P(42) > Pr(41) —- P(AL) — €. 
Por eso 


N 
NN tIPR(Sx) — P(SE)! < E) C | sup 1P:(B) — P(B)Í < 2e1, 
DEN 


k=-1 
donde $, ..., Sm son los elementos de 8(£). Como Pr(Sr) - -» Pr), de aquí ya sia dificultad 


obtenemos (2) (compárese con la demostración del cojea 1.2.2.A). 
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La segunda afirmación del teorema 3 es casi evidente. Supongamos que tenernos £ > 0 
y que 6, (€1) y S2(62) son las clases aproximantes para R, y Na, respectivamente. Sean, además, 
A y B conjuntos cualesquiera de R, y de R2. De las relaciones €, + £1 = 8, : 


AICACA, P(42 - Any) < €, (Ar € Si(e1)). 
BCBCBr PB: - B)< €: (8 € G2(82), 


obtenemos 


A¡B, C ABC AxB), 
A2B,; — AB, C (42 - AYU(B: — Bi), 
P(42B: — A1B)) € €. 


Por lo tanto, la clase %.NR2 es aproximable finita. La suma R, + M2 y el complemento R 
se examinan análogamente «< 
Corolario 1. Sea ZX'ws R”, X, = [Xo]a EF. Entonces, 


sup |F5(1) — F(t) > 0 
r c.. 
cuando n > vo, donde Fi(t) es la función empírica de distribución. 

Demostración. De la demostración del teorema 1.2.2A se deduce que las clases de subcon-» 
juntos Ry = (y ER”: yy < 4), = 00 <(/< es, para cada j = l, ..., m, son clases aproxi- 
mables finitas. En calidad del sistema S(s) es suficiente adoptar los semiespacios (y; < 24) 
ely<zu),k =1, ..., N, donde zx se han definido en (1.2.6). 

Según la segunda afirmación del teorema 1, la clase de ángulos RN = Ni: ... Nin tam- 
bién será aproximable finita. Nos queda hacer uso de la primera afirmación del teorema 1. < 

El corolario 1 no es otra cosa sino el teorema 1.4.1.. 

Examinemos ahora las clases de conjuntos R que satisfacen la condición siguiente (DT). 
Sea Ku el cubo 


Ku = ly = O... Ja): máx lyel < M). 
IGG" 
(T) Todos los conjuntos B € R poseen la siguiente propiedad: el s-entorno TÉ de la frontera 
Tp = 9(8N Kyu) tiene medida de Lebesgue (volumen) ¿(TE € ple, M), donde y sólo depen- 
de de sus argumentos, y para cualquier M, p(e, M) > 0 cuando e — 0. 


Teorema 2. Supongamos que Y = R”,X € P yla distribución P es absolutamente conti- 
nua con respecto a la medida de Lebesgue. Entonces la clase R que satisface la condición 
(T) es aproximable finita y, por consiguiente, para ella es válida (2). 


Demostración. Notemos antes que nada, que el problema cuyo espacio constituye R” 
puede ser reducido al cubo Xiu en el sentido siguiente. Supongamos que para cualquier M 
fija hay una clase 6 de subconjuntos de Ku tal, que para cualquier B'€N y B=B"*NKu 
se cumple (1). Entonces N será aproximable finita. En efecto, para e > 0, elegido en (1), halle- 
mos M = M(e) tal, que P(Kiw) > 1 - z, y pongamos Aí = A, 41 = A2U Km, donde Ás 
es un conjunto de (1), y Ku es el complemento hasta Kw. Entonces es evidente que 


ACB"CAj, PA -— Af < 22. 


Así pues, podemos considerar que P(Xw) = 1, R consta de los sobconjuntos Kas. 
Examinemos, en calidad de 6, las figuras A, formadas por distintas uniones de cubos 
cerrados, con aristas de longitud 5 y con los vértices en los puntos 


(j16, .... jm8), —-M/B< je <M/5, k=1,..., m, 
(para abreviar se puede admitir que 3 divide totalmente (M). Definamos los conjuntos Á,, 
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Ax, respectivamente, como las uniones de todos los cubos que pertenecen y rozan con B, 
Es evidente que 


A] CBC As, 
p(Az — Ay) < MIRA) E p(25Vm, M). 
Eligiendo 6, el segundo miembro de este desigualdad puede hacerse tan pequeño cuanto se 
quiera, 
Seguidamente, P es en absoluto continua respecto a a. Por eso, para € dado se puede 


hallar y = y(e) tal, que sup P(4) < e. Ahora, si ó se elige de tal modo que p(28Vm, M) < 
AUN <y 
< y, entonces obtendremos 


P(4) - AY<e. a 


Corolario 2. La clase 6 de todos los conjuntos convexos es aproximable finita y, por 
lo tanto, para P absolutamente continuas, 


sup |1P:(8) - P(B)l — O. 
yO es. 


En efecto, el “área” máxima de la superficie del conjunto convexo en Kw constituye 
2m(2M)""' y equivale al “área” de la superficie Kw: y el volumen máximo «(9Ka0)*) del 
e-entorno de dK no pasa de 24:21m(2M)" 7 ?. Esto significa que se cumple la condición (T). < 

El corolario 2 coincide con el teorema 1.4.2. La observación en cuanto a la existencia 
de la condición de continuidad absoluta de P está presente en el $ 1.4. 

No es difícil notar que la condición (TI) también será cumplida para las clases de conjuntos 
no convexos dotados de fronteras bastante suaves. 


Suplemento |l 
Teorema funcional del limite para los procesos empíricos 


Aquí demostraremos la afirmación siguiente (teorema 1.6.3). Sea 
w*(0) = VEO — () 
el proceso empírico definido en el $ 1.6, y seca w“(1) el puente brownílano. 


Teorema 1. S] f es una funcional medible: D(O, 1) > R, continua en los puntos del espa- 
cio C(O, 1) y en una métrica uniforme, entonces, cuando n -» co, 


Kw”) = fw). 


Para demostrar el teorema necesitaremos dos lemas. 

Lema 1. Las distribuciones de dimensión finita de los procesos w” convergen débilmente 
(cuando n — eo) hacia las distribuciones respectivas del proceso w”. 

Demostración. Examinemos los vectores aleatorios de dimensión (m + 1), 


w" m (A9w”, ..., Amw”), 
donde, al igual que en el $ 1.6, Ay designa las diferencias 


An = 84 +1 — ED, 
Gr > J=0,..., RM, lo =0, Im+1 = l. 


Designemos por w? el vactor análogo para el proceso w*(1). En virtud del segundo teorema 
de continuidad, para demostrar el lema es suficiente mostrar que w” ==» w 
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Hallemos las funciones características w" y w'. Para el vector u = (lo, ..., Um) tenemos 
Me'?"" = Mexp ( >) nene | = Map ( PR UnNAyw — «a 6 
20 J1=0 


donde dy = l).1— (1, J=0, ..., M, w(() es un proceso wieneriano estándar. 
Representemos el exponente de la exponencial como una suma de magnitudes indepen- 
m 


dientes. Para abreviar designemos y ujAy = U, obtendremos 


y=o 


Y) uwíayw - wa) = Y) (uy - U)ayw. 


J=0 J=0 
En vista de que Me'“"% m e7 "2, entonces 


0 (Doo eo (+5 (20 41)), o 


Ahora examinemos Me'”""”. Sea, al igual que antes (véase el $ 1.6), 


Tal) = nFA(o. 
Entonces, como ya sabemos (véase (1.6.1), 
n 


| k k 
P ” 5S ds ». 3 == —_———_— a de 
(A0Xx = Ko, Am Tn == Ko) ra rr An 


En el segundo miembro figuran los términos del desarrollo del polinomio (Ay + ... + Am)”. 
Utilizando este argumento obtenemos 


Men Y, A EN 


Como Ayw* = Vñ(Fi(() +1) — FA) — 05) = (Oya — 0y)/Yn, entonces 


pe ap [ 2 año) meo [2 2 00m] - ev (2 1%) 


De aquí, para u fijo, utilizando las igualdades 


e =1+0a+0%72 + 0(a%), In(l + a) = a — a*/2 + O(a?), 
cuando a = O(1), hallamos 


ln Me" = —1UYn + nn [ - > 0 - 07 %a,| El 


j=0 
= 2 

= —¡UYn + nin [ + y (E- Z + 013) a | = 
Jw0 


a ari a [E LY judo + La ot] = 


2n 
1 - 1 
-5|- Y yu + | + 06 ). 


yuo 


Jj 
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Comparando con (1), vemos que cuando n — oo, 
Me" Met", 2 


Sólo queda utilizar el teorema de continuidad para las funciones características de las distribu- 
ciones multidimensionales (véase (11], p. 148). a 
Lema 2. Pura cualquier e > 0 
lím sup P(wa(w”) > £) > 0 (3) 
an wm 
para A — 0, donde wa(y) es el módulo de continuidad de la función y € D(O, 1): wa) = 


= sup  l)y(t)-— y(a)l. 
06A<A4E€1 


lan -—- ar 1Cá 


Demostración. Sin limitar la generalidad, sólo podemos examinar los números binarios 
racionales A = 27? Para m > Í tenemos 


walw”) <a +2 mé (E La 


k62" 2 2a 
donde 
eee (E) (91 
Alea 


k-1 k 
. — w" |— w 
(E 25) > het ¿l G -) - co], 
Para demostrar (3) examinemos 
Plos(W") > 3) € Pub! > 6) + P (Uf. =>. >2)). (4) 
Aqui tomemos el primer sumando. Es fácil notar que cuando / > 3 el suceso 
y" 
AMA 
w MA == 
2 Pp 
il ksa) 


provoca (wi) < £]. En vísta de que para los sucesos adicionales tiene lugar la inclusión inver- 
sa, entonces 


PU > <P (UU(|- () - Lt >5)). 65 


ai kut 


rta) e 


” G la no :)) es la frecuencia con que los elementos de Ja muestra van 


35—80:30 
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a parar al intervalo cuya longitud constituye 2”“. Con otras palabras, esta es la suma Sa 
de variables aleatorias en el esquema de Bernoulli con n pruebas y con una probabilidad 
del caso 1 igual a p = 27”. Como (véase [11], p. 105) 


M(S, — ap = n(p(l - PY + (1 - pp) + 3n(n — Dp?U — py < mp + 3nóp, 
entonces, según la desigualdad del tipo de Chébishev, 


k k- 1 E evn 
a a e Ba” = P | = | ee 
"(| (5) ”(7)|»5) (s de 


E Gp + 3npdrt  ? 3r* 
Por consiguiente, el segundo miembro en (5) no supera 


ein? en e 
= , 9 
yy [E + ”] £c Lic + 5) , 
eE e? sa e? 


en 


donde c es cierta constante absoluta y, rr -m/9 cuado m->-«w y 


re? 


Y 1127" - 227! cuando /— co ). Poniendo m = 3 logan, obtenemos que 


rel 


lm sup P(wÉ" > £) < Apu 
An. e Y 
Eligiendo ¿ (o A), esta expresión puede hacerse tan pequeña como se quiera. 
Ahora apreciemos el segundo sumando en (4), que no supera 


k-=1 «k 
27P 1 . e). 

(E 5) >) o 
EJ suceso que aquí figura bajo el signo de probabilidad significa que, eligido m, en el intervalo 
Uk - D/n?, k/n*) cuya anchura es n”?, la desviación de n(Fa(u) — 4) respecto a 
n(Fs(k/n*) — k/n?*) supera V/ne. En vista de que V/ne > 3, cuando n es bastante grande, para 
esto, en el intervalo ((k — 1)/n?, k/n?) deben caes por lo menos 2 elementos de la muestra 
X, o sea, debe producirse el suceso (S, > 2) si volvemos a utilizar las designaciones para 
el esquema de Bernoulli cuando p = n”?. Pero en vista de que | = (1 — p + p) = (1 — 
- pY + np(1 — pY”* + O(n*p”), entonces 


PS, > 2) = 1 — (1 — p)” — mpQl — pYr? = O(n*p?). 
Ahora bien, (6) no supera n?20(n7*%) = O(n7*) = O(1). El lema queda demostrado. «< 


Demostración del teorema 1. Para cualquier x € D(0, 1) pongamos 
lxi = A EIA SE e IDWIG= inf JO) 
-X1Q2 


0/6 ly -x1G6 


y designemos por xa la quebrada continua con nudos en los puntos (kA, x(X4) = xa(kA), 
k =0, ..., 1/4, donde A divide por completo 1. Es preciso sefialar que 


lx — xal € va) (7) 
y que /2(xa) son funciones continuas del vector (x(0), x(A), 1(24), ..., x(1)). En virtud del 
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lema 1 y del segundo teorema de continuidad cuando » — oo, 


Few = SE). (8) 
Además, de la continuidad de w” y de la funcional f se deduce que 
Im — "WU < ua(w) > 0 cuando A=—0, (9) 
P 
Se(w") =— Kw") cuando e-0. (10) 
Pp 


De la definición de f¿ se desprende que f¿ (Y) < f(x) en el conjunto ly — xl £ e. Por 
eso 
PY(w) < N) $ PUSO) €l, wi - wi < e) + P(lw; - wl> e < 
€ PU (wi) € £) + Plwa(w”) > €). 


Pasando aquí al límite para n —> co y utilizando (8) y (9), obtenemos 
lím sup PG(w") < 1) « PU (w2) < 0) + lím sup Píwa(w”) > 6). (11) 


AR-m no 


Análogamente hallamos 
PY¿(wÍ) < N € PUZ(w) € 1) + Píwa(w) > e). 


Sustituyamos ahora la última expresión en (11) y pasemos al límite cuando A — 0. Entonces, 
de (9) y del lema (2) obtenemos que 

lim sup PY(w”) < NM) < PUz(w) € 0. 

an” 
De aquí y de (10) se deduce que 

lím sup PYw”) < 1) € PU(W?) < 1). 


=>» 


Análogamente se establece la desigualdad inversa 
lim inf PY(w” < 1) >» PU(WS) < ». 


a—. o 

Las desigualdades obtenidas significan, evidentemente, que f(w”) » /(w>. < 

Examinemos otro teorema límite funcional para los procesos empíricos, el cual se asemeja 
mucho al teorema ]. 

Supongamos que además de la muestra X de volumen s, tenemos una muestra Y de 
volumen 2 que no depende de la primera y la cual procede de esa misma disitribución unifos- 
me en [0, 1]. En las condiciones de este apartado nos será más cómodo designar por Fx(1) 
y FY(O0 las funciones empíricas de distribución de las muestras X e Y, respectivamente. 


Pongamos 
merlo a (EMO - FU). 
Ay + 


Teorema 2. Si la funcional f satisface las condiciones del teorema 1, entonces, para 
A? 0 y/M.aNaN 


Kwr,v) = f(w". 


Demostración. Dernostremos este teorema utilizando la suposición simplificadora de que 


mn 
=> a € [0, 1] 
Tm + 


35* 
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cuando rn — «o. Tenemos 


Nn12 
A + 


donde wr(1) y wy(t) son los procesos empíricos que corresponden a las muestras X' e Y. 
Como wa(x + y) € wa(x) + wa(), entonces, de (12) y del lema 2 se deduce Inmediata- 
mente el análogo del lema 2 para el proceso wx.y(f): para cualquier e > 0, 


wx,y (1) = UFZO) — 1) - (FUN = 1] = Vawx(1) + Y1 - awr(), (12) 


lm sup P(wa(wr. y) > £) > 0. 
mo 
La convergencia de las distribuciones de dimensión finita wx, y y w” también se desprende 
de (12). En efecto, designemos por wx. y, Wx, Wy los vectores construidos a base de los procesos 
wx.y((), wx(1), wrlt), exactamente igual que como fue construido el vector w” a base del 
proceso w“(t). Entonces, utilizando la Independencia de X e Y y la demostración del lema 
1, obtenemos 


Menor” = Me Me A exp 6 - E A 


(24 e) en (¿Qe 00) me. 


En lo demás, la demostración del teorema 2 no se distingue en nada de la del teorema 1. < 


Suplemento lil 
Propiedades de las esperanzas matemáticas condicionales 


En el $ 2.9 hemos citado las propiedades principales de las em.c. Más abajo aducimos 
las demostraciones de estas propiedades que siguen en el mismo orden que en el 52.9. 

la. M(cE/10) = cCM(E/90. 

Ib. M(E + E/U) = M(/M) + M(E/9). 

lc. SI 4E<G Cs, entonces M(E/M < M(L/2) es. 

Para demostrar la propiedad la es necesario convencerse, según la definición 2.9.2, de que 

1) cCM(E/%) es una función A-medible. 

2) M(cM(£/U); A) = Mí(cé; A) para cualquier A € Y. 

El cumplimiento de la primera propiedad es evidente. La segunda propiedad se deduce 
de tas propiedades de lintealidad de una esperanza matemática ordinaria (o de una integral 


La propiedad lb se demuestra exactamente igual. 


Para demostrar la propiedad lc pongamos, para abreviar, É| = M(y/%). Entonces, para 
cualquier A € Y, j 


ff? = Mis; 4) = MíE; 4) € M(Es 4) = [EdP, 
A A 


fé - ÉEJdP 30. 


A 
De aqui se deduce que £ - £ »00s. 
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2. Desigualdad de Chébishev. Si E 3 0, x > 0, entonces 


M(E/4) 
E 


P() > x/D «€ 


Esta propledad se desprende de tc, ya que P(£ > x/%) = M(lte> 3/8), donde la es el 
indicador del suceso A, y es válida la desigualdad Ita € €/x. 

3. Si Y y 0(É) son independientes, entonces M(E/%) = M£. Como £ = Mi es una función 
Y-medible, sólo nos queda comprobar la segunda condición de definición 2.9,2: para cualquier 
ACA 


M(É; A) = MIE; 4). 


La validez de esta igualdad se deduce de la independencia de las variables aleatorias 74 y 
E y de las relaciones 


M(E; A) = M(ELO) = ME-MZ, = ÉP(4) = M(É 4). 


4. Teorema de convergencia monótona. Si 0 € Esté c.s., entonces M(Ex/UNM(E/M) Cos. 
En efecto, de E,+1 » E. c.s. resulta £,,, > É£, c.s., donde É£, = M(E,/9). Por eso existe una 
Y -medibk É tal que E,tE c.s. En virtud del teorema ordinario de convergencia monótona, 
para cualquier Á € Y, 


LS 


En vista de que los primeros miembros de estas relaciones coinciden, también coinciden los 
segundos. Esto precisamente significa que £ = M(£/9. 
3. Si y es reol y 4 es medible, entonces 


Mínt/9) = nME/M. (1) 


Si y = Ja (indicador del conjunto 3 € A), entonces, la afirmación es justa, ya que para cual- 
quier A € M 


[MUst/MAP = [lotdP = | ¿dP= | M(/MAP = [IaM(E/MAaP. 
A A AD AB A 
De aquí y de la linealidad de las em.c. resulta que la afirmación tambiéo es válida para 
cualesquiera funciones simples 3. 
Si£>0y93 20, entonces, tomando la sucesión de funciones simples 0 < na17 y hacien- 
do uso del teorema de convergencia monótona en la igualdad 


M(m/Y) = mM(t/9), 


obtenemos (1). El paso al caso de E y y arbitrarias se realiza ordinariamente: examinando 
las partes positivas y negativas de las variables aleatorias E y y. En este caso, para que las 
diferencias y sumas obtenidas tengan sentido, es necesario exigir la existencia de MI£l < oo, 
Mlg,! < oo. 


6. La desigualdad de Cauchy — Buniakovski 


M(t,/%) > [M(E/MM(8/m)]'? 


se demuestra exactamente igual que para las esperanzas matemáticas ordinarias (véase, por 
ejemplo, [11)), puesto que la demostración, además de la linealidad, no utiliza otras propieda- 
des de las esperanzas matemáticas. 
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La desigualdad de Jensen 
e(M(£/10) < M(s (0/0) (2) 


para cualquier función g convexa hacía abajo se deduce de las siguientes relaciones (compáre- 
se con (11)). En virtud de la convexidad de g(x), para cada y habrá un número g,(y) tal, que 


E() £€ 80) + (x — yN)210). 


Pongamos aquí x = £, y = É =- M(t/M) y tomemos la em.c. de ambos miembros de esta des- 
igualdad. Como, en virtud de la propiedad $, 


MIE - 080/40] = a(ÉMIE —- EA] = 0, 


obtenemos (2). 

7. La fórmula de la probabilidad completa se desprende de la propledad 8 si en calidad 
de A se adopta la o-álgebra trivial. 

8. SIM C A, $, entonces es válida la fórmula de “promediación sucesiva” 


M(E/9) = M(M(E/A1)/9). 
En efecto, para cualquier A € A, en virtud de que A € As, 
[M(M(E/9/2002 = [M(E/U0AP = [tap = [M(E/2AP. 
A A A A 


En conclusión cabe señalar que la propiedad 5 admite, para suposiciones amplias, la 
siguiente generalización. 

SA. Si y es medible respecto a A, y p(w, y) es la función medible de las variables w € Q 
y y €R*, entonces 


M(elw, Y/U) = Y(w, y), donde Y(w, y) = Míp(w, y)/A). GQ) 


Demostremos esta propiedad suponiendo que existe una sucesión de funciones simples 
qa tal, que pl(w, na)iplo, 1, Ylw, mdte(w. y) cs. En efecto, supongamos Que mn = ya para 
wE€ Áx C 4. Entonces 


p(w, q) = ple, Ya, - 
k 


En virtud de la propiedad 5, de aquí se deduce el cumplimiento de (3) para las funciones 
». Queda utilizar e] teorema de convergencia monótona (propiedad (4) en la igualdad 


Melo, m)/10) = ví, 7). 


Suplemento IV 
Teorema de factorización de Neyman — Fisher 


En este apartado demostraremos el teorema 2.12.1. 

Para simplificar las designaciones supondremos, sin limitar la generalización, que 1» = 1 
(pues la muestra X puede ser multidimensional). Además, en concordancia con el acuerdo 
de que el espacio probabilístico (2; B) es muestral, escribiremos PB) en vez de Pe(X € B) 
y designaremos por / la dimensión de la estadística S. 


Teorema 1. Supongamos que se cumple la condición (An). La estadística S es suficiente si 
y sólo si existe la función no negativa y(0, s) medible respecto a s € R' y la función no negati- 
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va h(x) medible respecto a x€ 2; tales que 
dP 
Ses) = 2 60) = Y, SOYA) cd. bl. 0) 
A 


A la demostración del teorema 1 le antepondremos dos afirmaciones auxiliares. Introduz- 
camos en el planteamiento la 


Condición (D). La familia 2 = (Po) oce satisface la condición (AN (o sea, es dominada 
por la medida A), donde la medida probabilística » tiene la forma siguiente. 


hm YiciPo, 60168, a4>0, as Ll 
] ( 


Teorema 2. La condición (A, ) es necesaria y suficiente para el cumplimiento de 
la condición D 


Demostración. La necesidad es evidente. Demostremos la suficiencia. Sin limitar la generali- 
dad se puede considerar que 4 es una medida probabliística. En efecto, en vez de a siempre 


se puede introducir la medida 
> “(AB)) 
(A) = , 
d 2(B)) 


1 


donde (By) forma la partición del espacio 2 tal, que «(By) <o,j¿=1, 2, ... 

Sea ¿ta clase de todas las medidas probabilísticas de forma P = 2c Po, 0) € O, €; > O, 
20) = 1. Evidentemente, 24C H4y GH también satisface la condición (A,). 

Designemos p = dP/d, y examinemos la clase Ú4 de conjuntos C € B para los cuales existe 


PES tal, que p(x) > 0 cd. en C, P(C) > 0. Sea c1, C2, ... una sucesión de conjuntos 
de 6 tal, que 


a(Ci) > sup a(C). 
ces 


) 


Como C;¡ € 6, entonces existe PP EH tal, que p% = > 0 cs. en C). Pongamos 


A 
Co=UC, PY = DEP, pa ep 
J J 


para cualesquiera c; > 0, 2c, = 1. Es evidente que p'” > 0 en Co y, por lo tanto, CoE€ E 
La afirmación del teorema quedará demostrada si determinamos que PO (4) = 0 contrl- 
buye a que P(4) = O para todas P€ 4H Esto significará la continuidad absoluta de P. respec- 
to a A = PY y el cumplimiento de la condición (D). 
Así pues, supongamos que POVA = 0 y que P es cualquier otro elemento de 4 Designe- 
mos C = (x px) > 0). La afirmación requerida se deducirá de las tres relaciones siguientes: 


P(ACo) = 0, P(AGC) = 0, P(ACo) = 0, 
donde B significa el complemento de B. La primera de estas relaciones se desprende del hecho 
de que PU(ACI) = 0, pg > 0 en Go y, por lo tanto, s(ACo) = O. La segunda relación 
resulta del hecho de que p(x) = O en C. Para demostrar la tercera relación admitamos que 


ella es injusta. Entonces, poniendo R = ACoC, obtenemos a(R) > 0, (CoUR) — m(Co > O. 
Pero esto contradice la igualdad 


a(Co) = sup (O), 
en vista de que Cp € 6, RES, QURES. < 
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Ahora bien, hemos establecido que, al cumplirse las condiciones (4,), existe una medida 
A para la cual se cumple la condición (D). 


Teorema 3. La estadística S es suficiente si y sólo sí existe una función medible ge(s) 
tal, que 


dP 
y (1) = gUS(o) cd. DJ. (2) 


Demostración. Para cualquier B C R' medible designemos S” (B) = (x € %: S(x) € B) € 
€ By y examinemos la distribución Gy en R' de la estadística S, inducida por la distribución 
P.: 


dP, 
CAB) = | Po(dx) = ul (9Mdx). 


Ss” 5 s 5 
Examinemos también la distribución 


v(B) == j Mdx). 
S” 5) 
Por supuesto que G, es absolutamente continua respecto a », ya que »(B) = O contribuye 
a que G+(B) = 0. Por eso existe una densidad ge(s) medible en s, tal, que 


CuB) = | se(s)víds). 
3 


Ahora supongamos que $ es una estadística suficiente y, por consiguiente, que existe 
una variante de distribución condicional P(4/3) = P+.(A/S(x) = $) que no depende de 6. Se- 
gun la definición de la distribución convencional, para cualquier Ay € o(S) se cumple 


| PLa/St))Poldx) = PA NA0). 
An 
De aquí también se deduce que 


$ PA/S)I(6ONMAX) = AA N Ao). 
Ao 


Esto significa que P(4/5) es a la vez una probabilidad condicional respecto a la distribución 


A. Designemos esta probabilidad como emax. EZ¿/S) del indicador /,. 
De (1), cuando Ag = R', en virtud de las propiedades de la e.m.c., obtenemos 


PA) = [PLA/S(O)P edo) = MIP(A/SO)) = 
= [PLA/SIGuas) = [PLA/SIgo(sir(ds) = [PLA/SUNENSCOMOS) = 
= [Enda/SO0EASEMA) = [EME ASCO/SONMA) 
= (Lg(SOIMax) = | soSANMAN. 
A 


Es evidente que esto significa precisamente (2). 
Ahora supongamos que se cumple (2). Demostremos que la e.m.c. E,(14/S), correspon- 
diente a la distribución A (que no depende de 0), es a la vez la e.m.c. P,(4/S) para todas Py € 2 
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Para A y 0 fijos introduzcamos la medida y en Y, definiéndola por la igualdad 
y(C) > PAC), C€ Y, 


asi que dy/dPo = La, dy/dh = Ig S(x)). 
Para cualquier C € a(S) tenemos 


HC) = | P(dx) = Melale = MolcMeda/S) = | Me(la/S)Po(dx). 3) 
C c 
Por consiguiente, si y, Po, A se examinan como distribuciones en J(S), entonces 


dr 
—=_ ME Mola /9), 
dP. 


dy dPs 
D Moella/S) e Mell4/D80(S). 
Análogamente, en vintud de (3), en a(S), 


Dl = EntaBASY/S) = EMSIENLA/). 

De aquí se deduce que A casi seguramente (aquí y más adelante, por 4 y Po entenderemos 
las distribuciones en o(S)) constituirá 

Mo(11/Sjgo(S) = Ex(Z4/S)g0(S). (4) 

Ahora hagamos uso de la propiedad (D), virtud de la cual el cumplimiento de (4) 
A es. significa el cumplimiento de esta relación por Po. cs. Además, Po c.s. es 
dr 
gus) = Sn (0 0. 

Por consiguiente, Po c.s. es válida, 

P.A/S) = Ms(la/S) = EIA / 5). 


Esto significa que la magnitud Er(Z1/S), que no depende de 6, puede ser elegida en calidad 
de probabilidad condicional P»-(A4/S). «< 

Demostración del teorema 1. Si S es una estadística suficiente, entonces (1) se deduce 
del teorema 3, ya que 


dP di 
fi = pl ge(SOd) — (o), 
de du 


donde es preciso suponer que go(s) = y(0, s), E (x) = AGo. Al contrario, si (1) es válida, 
entonces h 


d dP», 
$ ja A” y y cobi0s, SCOIAGO = (SCO)AGO. 


Por eso, sí r(S(x)) > 0, entonces 
Po _ Te de 40, 50) 
de de di Hs) > 
Sir(S(0) = 0, entonces, = (x) se puede definir arbitrariamente, ya que A-medida y, por con- 


siguiente, Pg medida del conjunto de tales puntos x es igual a cero. Poniendo ge(s) = y(0, 
s/r(s) y aplicando el teorema 3 obtenemos que S es una estadística suficiente. < 
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Suplemento V 


Ley de los grandes números y teorema central del límite. 
Variantes uniformes 


1. Ley de los greudes números en el esquema de series. Examíinemos las sucesiones 
lErnJia, 1 = 1,2, ..., de vectores igualmente distribuidos en e) esquema de series (la distri- 
bución tx, depende de n) y supongamos que Mí. = 0 


Designemos f, = y Er.n. 


ka! 
Teorema 1. Sea 


»nMI Ex) = (4 <0<O0, 
nMd Er.e!; lEx,n! > 7-0 (1) 


cuando n — «o para cualquier yr > 0. Entonces, para cualquier £ > 0, 
P(lfal > £) 0. 
Demostración. Examinemos los cortes Ef , de tas variabtes aleatorias £x,, en el nivel 7: 


EL Ern Si lóenl <>7, 
dl O) si líral >. 


En virtud de la condición (1) 
PEL 7 En) = PalELal > 7) <= MílELal; Lal > 1) = 0(1/n), ME. = 0(/m), 
M(E)? = MiElos; lEnrl E 7 E 
S 7M(l£inl; lEnnl < 7) = r(0n/a —- MlEnnl; VEr,ml > 7). 
Por eso, para cualquier e > O y para valores bastante grandes de », 
M(£(.0)* < 2a7/n, DEí.a < 2a7/n, nMEia < €/2. 


AR 
Pongamos fy = y Ef». Entonces, si los valores de r son bastante grandes, 
Joel 


Pl. >6<P ( ÚU ft E) + P(51 > 8). 
J=1 


Aquí, el primer sumando no supera nP(£(n st Ej n) = o(1), y el segundo no pasa de 
P(lr¿ — Mil > €/2) £ 4D3¿/2* < 8a7/e?. 


Como 7 es arbitrario, para cualquier e > O dado, el valor obtenido puede hacerse tan 
pequeño como se quiera. Eligiendo ahora un valor de n bastante grande, también podemos 
hacer tan pequefñia como se Quiera toda la probabilidad P(lf=! > €). < 


2. Teorema central del límite en el esquema de series. Aquí supondremos que 
MiEjr = 0, MléE,,l? < oo, 


Designemos o? = nMéEnm, Sa = D) Eno 
$J=1 
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Teorema 2. Supongamos que se cumplen las condiciones de Lindeberg 
AM(0Ernsl?; ln > 7-0 


para n — «o para cualquier r > 0. Entonces, si al = e, 


Sa E ho 
Corolario 1 (teorema central ordinario del límite). Sif,, E, ... es una sucesión de vecto- 
1) 
res independientes igualmente distribuidos, MEx = 0,0” = METix < 00,sy = )) Ex, enton- 
ces, para n — o, kml 
2 a? 
YA 0,e: 


Esta afirmación es el corolario del teorema 2, ya que las variables aleatorias Ex. = £Ex/ vn 
satisfacen las condiciones del mismo. 


Demostración del teorema 2. Examinemos las funciones características 
Val) = Me, nr) = Me “52 = Ynto. 


Para demostrar el teorema necesitamos convencernos que para cualquier £ 


Pn(1) — exp f- quee] 
cuando n — oo, 


Hagamos uso de la variante unidimensional del teorema 1, demostrada en (11). Las fun- 
ciones Ys(1) y pn(1) pueden considerarse como funciones características 


Y (y) = Me y el) = Me 


de las variables aleatorias Ef, = (En, 0), 7 = (La, w), donde w = //ltl, v = 1£l. 
Mostremos que las variabks aleatorias escalares Ef, satisfacen las condiciones del teore- 
ma ) para el caso unidimensional, Es evidente que 


MER, = 0, nM(E7,Y* = nMít1s, 0)? = ww? — ww”. 

El cumplimiento de la condición de Lindeberg se deduce de la desigualdad evidente 
nMíilEra, DY; Mtra, Y > DN < aAM(l Ent? ll > 7). 

Ahora bien, para cualesquiera v y w (o sea, para cualesquiera 1) 


eníipMe'*= — €EXp (- 5 usa] = exp (- que] . <Q 


3, Teoremas uniformes del límite para las sumas de Ins variables alestorias que dependen 
del parámetro. En este apartado dernostraremos los teoremas 29.1 y 29.2. 
Sea X € Ps y a(x, 6) una función medible Y x O -—» R' dada, 


Sa(0) = > ay, 6). 


Jul 


Diremos que la integral a(6) = fa(x, MP +(dx) converge uniformemente en 9 en la región 
0 C 8 si 


sup ¡ lar, NlPrdx) — 0 
YO ax i>N 
cuando N —«o. 
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Teorema 3. (ley uniforme de los grandes números). Si la integral a(6) = Ía(x, 6)P e(dx) 
converge uniformemente en 0 en la región Oj C O, entonces 


eto) = + _ 0) 0 0) 
n P 


uniformementne respecto a 9 € Op. 


Demostración. Supongamos que (2) no tiene lugar. Entonces habrá e > 0, 6 > 0 y una 
sucesión 0x € Oo tales, que 
P., ( > .) >6 (3) 
para todos n. 


Examinemos las variables aleatorias 
a(x). 00) => a(0.) 
Ena = SA a 


$a(0) 
n 


No es difícil notar que éstas satisfacen las condiciones del teorema 1. En efecto, pongamos 
An w lx, la(x, 6n) — atón)1 > 71). Entonces 


aMo,lEnl < 2a = 2 sup | tax, 0) Peldx) < «o, 
$0 


nMe.CEnnl; lEnnl > 7) = j la(x, 0n) — a(6.)1Po,(dx) — O. 
An 
La última relación se deduce de la convergencia uniforme de la integral a(0) y de la desi- 
gualdad de Chébishev 


Mo, Er,» 1 
PAE 
T TR 


Lo dicho significa que la sucesión gy, satisface la ley de los grandes números: 


po. (| »> En > e) >0 


para cualquier £ > 0. Esto contradice (3) y demuestra el teorema. < 

Pasemos al teorema central del límite. Sea Mea(x;, 6) = 0. 

Pongamos o*(0) = loy(6)1 = Mea"(x,, Oa(x,, 6) y designemos por ay(x, 6), J = 1, ... 
. ..» ¿las coordenadas de los vectores a(x, $). 


Teorema 4 (Teorema central uniforme del limite). Supongamos que las integrales 
a6) = Moañx1, O) convergen uniformemente en O9CO, o sea, 


pd oy(0) < w 
sup Me(ajta, 0); laj(x1, 61 > N—=0 


cuando N — wo. Entonces 


Sa(0) 
7 Eb 210 (5) 


cuando n — vo uniformemente respecto a 0 € Oo. 
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Demostración. El incumplimiento de (5) significará la existencia de una sucesión 6, € So para 
ta cual tas sumas de las variables aleatorias ¿yn = a(xy, 0,)/vVn no se aproximarán, según la 
distrib.:ción, a Po 0, 


En virtud de la compactibilidad de la clausura (0*(0), 9 € 00), la sucesión 6, puede consi- 
derarse elegida de tal modo que, para cierta matriz o?, 


0*(6,) = nMoET abra > 07, (6) 


Entonces, nuestra suposición acerca del incumplimiento de (5) significará que > En 


J=1 
no se aproximará, según la distribución, a 9, ,.. Pero esto es imposible en virtud del teorema 
2, ya que ¿y,» satisfacen las condiciones del referido teorema. En efecto, en virtud de (6) es 
suficiente verificar la condición de Lindeberg. Para los conjuntos Aya = ( la(x, 0) > 
> rín/I] hallamos 
lo(0) 
Pe(A su > 
pr add $0 nr 
1 


cuando n —+<o, Utilizando el hecho de que [!£1.al > 7] C |) Az.», obtenemos 
dw1 


i 


AÑMallEnnl?; lEnnl > 7 < Y) Moakxs, 00); Ax.s). (7) 


Ike m) 


Aquí Ma, (4x1, 01); A1,n) 0 en virtud de la convergencia uniforme de la integral 04(06). 
Si ¿ye k, entonces, poniendo Byyw = (las, 04)! > N], obtenemos 


Ma, (0% Ax.x) = Mo.(a ArxBin) + Mo.lad, Ax.n Bin). 


Aquí, para e > O dado se puede escoger N de tal modo que el primer sumando, en virtud 
de (4), sea menor que e. El segundo sumando no supera N*P¿(Ax .) — 0 cuando n — oo. 
Esto significa que (7) converge a cero cuando n —= oo. 


Suplemento VI 


Algunas afirmaciones referentes a las integrales que dependen 
del parámetro 


1. Teoremas de la convergencia de las integrales que dependen del parámetro, Sea [y(e, 
»)) una familia de funciones medibles que se dan en el espacio medible (2 Wy) con la medi- 
da » en el. Nos interesarán las condiciones en las que 


we, s)udy) — [v18, yivtdy) cuando 10. 0) 


Sea (A(8) = Alt, 0), 1 € O) cierta familia de conjuntos Bz,. Designemos por Zan(x) el 
índicador A(£), y por A(s), el complemento para A(£0. 
La siguiente afirmación es cierta generalización del teorema conocido de Lebesgue. 


Teorema 1. Supongamos que la familia |A(t)) es tal, que 
1) Y, Naco) > Y (0), cuando t = 0 para c.f.[»] valores de y, para los cuales y(0, 
y) 1 0. 
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2) supiv(t, YiamO) € YO), donde y es la función integrable 
[vorn(dy) < e. 
Entonces, para que se cumpla (1) es necesario y suficiente que 
[vtt, Ez Udvldy) — 0 cuando £=0. e) 
Demostración. En virtud del teorema de Lebesgue, 


[vt »ao0)rdy) — [v0, yir(dy). 

En vista de que 
[y [ua + juez, 
(1) es equivalente a (2). a 
Si existe (y(6, y)»(dy), entonces, en calidad de conjunto A (1) para c.1. [v] de (1, y) conti- 

nuas, se pueden utilizar los conjuntos 

AO = ly Ir, 1 < 2108, HI), 
así como se hace, por ejemplo, en la afirmación siguiente. 


Corolario 1. Sea r(x) cualquier función medible limitada 2" = R, fa(x), continua en 
0 para c.t. [u*] valores de x€ £”". Entonces, la función 


Mor(X) = [r00/ (0 (dx) 


será continua en 0. 

Demostración. Utllicemos el teorema 1! par '= LZ% yax,» =p (1,0) = FOIOS, 
A(O) = (x 4:00 € 24900). Es evidente que se han cumplido las condiciones 1) y 2). Como 
para TG) m 1, la función Mer(X) = 1 es continua, entonces se cumple (véase (2)) 


| pod - 0 
xfA(O 


cuando £ — 0, Pero de aquí, según el teorema 1, resulta la continuidad de Mor(X) para cual- 
quier función limitada T. a 

Si sólo se trata de la condición suficiente para la convergencia (1) en caso de yt, y) — y(0, 
y) cd. cuando 1 — 6, en calidad de tal condición se puede utilizar la convergencia uniforme 
de las integrales en (tl). Esta última puede ser definida como la existencia de una medida 


finita A tal, que la desigualdad MA) < 6 == 5(€) contribuye a que sup ¡ INC, y) v(dy) < e 
( 
Á 

para e > O dado. 

Si existe la mayorante integrable y(y) = supy(?, y), entonces siempre existe tal medida 

1 
»: es suficiente suponer que MA) = | Y0)»(dy). 
Á 

2. Corolarios de las condiciones (R). Aquí demostraremos el lema 2.16.1 y la convergencia 

uniforme de la integral /(0): 
sup Me(1!"(a, 01? 11'(x, 01 > M0 (3) 
0 


cuando N — co (precisamente tal uniformidad se tiene en cuenta en los $$ 2.24, 2.28 y 2.29). 
En vista de que los planteamientos referentes al parámetro unidimensional y multidimensional) 
prácticamente no se distinguen, en este apartado y en el que le sigue nos timitarernos a estudiar 
el caso unidimensional, 
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Teorema 2. (lema 2.16.1). Supongamos que se cumple la condición (R) y que S = SO) es 
cualquier estadística para la cual MyS? < e < «o cuando 0 € O. Entonces, en la Igualdad 


as(0) = Me(S) = [SOY A0n"(dx) 
es posible la derivación bajo el signo integral: 
ax(0) = [SOYI(H" (dx) = MeSL'(X, O, (4) 


siendo, en este caso, continua la función ast0). 
Demosiración. Nótese previamente que de (4), cuando S(xr) m 1 y rn = 1, resulta 


Vibdn(dx) = 0. (5) 
Como £L'(X, 9) = Ss, [' (xi, 0) es la suma de las variables aleatorias independientes con 
media nula (véase ($)), aatontá 

DoL'(X, 6) = Mu(L'(X, 09)” = nMe(I"(x,, 0) = n1(6). (6) 

Ahora supongamos que la función 

L(0) = MAL (X, 09 = ALF) Yu" (dx) 

es continua en Ó6 (aún no podemos utilizar (6). Hagamos uso ahora del teorema 1 para 
Va a) VIO <= 1 AO = AB) (xi sup VAG)< 


vlB=vI< IB! 
< 2 4 /0x), e IVA) < 20) 1). (7) 
v. - yl 
Las condiciones 1) y 2) del teorema 1 para Y() = 24(6, x) se cumplen en viritud de la conti- 
nuidad de las funciones V/fa y Vfí. Por eso, de la convergencia de 7,(£) hacia 7/,(6) cuando 
t => 0 obtenemos (véase (2)) que, cuando 1 — 0, 


ep= | WAY 0. (8) 
XA (8) 


Al igual que como hemos obrado en el corolario 1, de aquí obtenemos la continuidad 
de [S0A¿()u* (dx). Para convencernos de ello es necesario valerse del teorema 1 “en sentido 
” y utilizar los mismos conjuntos A(í) y vtt, x) = SOYA). Las condiciones 1) y 2) 
del teorema 1 serán, evidentemente, cumplidas (y(x) = 215004001, [var (dx) < 
< 4M0S* x ¡4f0 Ya" (dx). El cumplimiento de (2) es asegurado por (8) y por la desi- 
gualdad recién citada, en la que la integración ha de efectuarse con arreglo al conjunto 
x (A1(5). 
Ahora recurriremos directamente a la demostración de (4). Nótese que 
1 


; (5% - [ 501) a [fon + UEUp? mu | fas dur 
0 0 
Utilicemos de nuevo el teorema 1 para Y = Rx L”", y = (u,x), pp =h xa” A es la medida 
de Lebesgue), Y(8, Y) = SOVÍ. us (2), 56 > 0, A = A1(65), donde A,(6) ha sido definida en 
(7). Otya vez de la continuidad de Vf) y V/0()' se deduce el cumplimiento de las condi- 
ciones 1) y 2) del teorema 1: 
Y(S, Maa oo) — SOS) = Y(0, y) cuando 5¿—0, 
sup IY(8, Lao 001 € 4SODILIGO |, 


$60 SUPLEMENTO Vi 


donde, en virtud de la desigualdad de Cauchy — Buniakovski, 


[asusto <£4 | [se a .| e 


Ahora bien, para demostrar (4) necesitarernos verificar la condición (2). Esta se desprende 
de la desigualdad de Cauchy — Buniakovski y de la relación (8): 
) 


| SA feos (fo a na) dun tl E 
xriA(S) 0 


| de E 


J 1/2 
go” | | E(0 + uo = 0 


cuando ¿ — 0. 

Así pues, hemos demostrado (4) suponiendo que 7/,(8) es continua. Pero para a = 1, 
In(6) = 7(0), esta suposición también se cumple en virtud de las condiciones (R). Por lo 
tanto, (4) es justa cuando » = ! y, por consiguiente, también es justa (5). Pero de (5) resulta 
la relación (6) que significa la continuidad de 7(6). Bl teorema queda demostrado. 


Teorema 3. Sí el conjunto O es compacto y la función /fu() para [s] c.t. valores de 
x es continuamente derivable respecto a 0, entonces, la continuidad de I(0) tendrá lugar si 
y sólo sl se cumple (3). 


El teorema significa que la continuidad de /(6) en la condición (R) puede ser sustituida 
por la condición (3). 


Demostración, Supongamos que f(6) se continua y que no se cumple (3). Entonces existe 
y > 0, y las sucesiones / >0€ 9 y N, => eo 30n tales que 


m() mm Mil do, 01% Ga. D> Ni] > y (9) 
para todos los valores de £* de la sucesión elegida. 
Utilicemos el teorema 1 para Y = 2 y =p Y) MAY (O DA, 


A(O) = (o 1Yf:09"1 < 214f.00" 1). En virtud de la continuidad de Y/.(x)”, las condiciones 
1) y 2) del teorema 1 se cumplen y, por consiguiente, de la continuidad de (1) se deducirá que 


mi) = | WIGY 'ntdx) = 0 
xfA(r 
cuando 1 — 0. Pero m(í) € mi(() + mix(£), donde 


m0 | Wa B0= (2146971 > NVAG)). 
BOALO 
De la forma del conjunto A(f) resulta 
mat) € 6 | Vf Pp 
sm 
Volviendo a utilizar ta convergencia (VA) — (VJ000)', V£00 — VJ00o) para 1 — 6, obtene- 
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mos que B(f) converge hacia el conjunto de p-medida 0. Esto significa que a(B(N > O, 
ma(t) — 0, m(1) — O cuando / > oo, Hemos obtenido la contradicción con (9). La relación 
(3) queda demostrada. 

Ahora supongamos que se cumple (3). En virtud del teorema 1, para demostrar ta conti- 
nuidad /(1) es suficiente convencerse que con el mismo conjunto A (1) que hemos utilizado 
más arriba, se cumple »,(£) > O cuando f — co, Pero 


m0 < Í Ufa + N Í fin. 
i>N xiA(1) 
donde, por medio de la elección de N, la primera integral puede hacerse, en virtud de (3), 
tan pequeña como se quiera. Para estimar la segunda integral es necesario notar que 
A(A(0)) — O y que cuando C(1) = la 4100) € 2/0(%)) se cumple | fin 0 cuando 1 +0 
xn 
(véase la demostración del corotario 1). Por eso 
| fm s2 | fur | fu-=0 
A) HA le) aiCU) 
cuando ¿1 —>0., <a 


3. Corotarius de las condiciones(RR). 
Teorema 4. Si se cumplen las condiciones (RR), entonces Vf¿CoOu(dx) = 


Junto con el teorema 2 esto asegura el cumplimiento de las condiciones (2.24.4) que nece- 
sitamos en el $ 2,24. 
Demostración. En virtud del teorema 2, para todos 0 € O, 


Yicontax) = 0 
y nos es suficiente demostrar que, cuando t — 0, 
102 — [$ - fin] > Vin 


q - sam en de ,donde y = E 22). apro. 


Nótese que; ATT, 
y 0 

do esta aa podemos representar J(1) en ea de la suma de cuatro sumandos: J(s) = 
=J + J + Ji + Ja, donde 


J, = [user J = ¡ e — fede, 
IGN 
Se Jo 
J = q » J, = Do 
5 Ja JO, Ja 5 E 


I = f(x) es la mayorante para /” (x, f) en las condiciones (RR). En virtud del teorema 2, cuando 
n=, S(x) = 1 (x, 0) obtenemos 


Ja a _ 2 n (M.¿" (1, 6) — Mel" (1, 0) — Moll Qía. oy = 1(0). (10) 
Seguidamente, 
ip < 1 (31) 
y, por lo tanto, según el teorema de Lebesgue, 
limo Y, = $ hn jon = [Sep = Yin — 100). (12) 


3I6— 8030 
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Volviendo a utilizar (31), obtenemos, en virtud de las condiciones (RR), 
bl < ¡ Vn + | fon > 0 


I2N laN 
cuando N = «o. Por último, en vírtud de la desigualdad de Cauchy — Buniakovski, 
t 
PAN NÍ Y” — fla < Ni j Ifildup € N | VHKujdu — 0 (13) 
[] 0 


cuando f +6. Comparando (10)-—<13) obtenemos que 0 J(1) — [fíu. <a 


Suplemento VII 


Desigualdades para la distribución de la relación de verosimilitud 
en el caso multidimensional 


En este apartado demostraremos el siguiente teorema (teorema 23.2; las designaciones 
véanse en los $6 2,21, 2.23, 2.28). 


Teorema 1. Supongamos que se cumplen las condiciones siguientes: 


inte >5>0, (1) 

Mat: es 0) s O, (2) 

y = sup Mo !¿'(x1, 6)1* > o (3) 
, 


para cierto $ > k. Entonces, para cualesquiera 2, n >1,r> 0, 


po ( z (2) > e) € cone”? + e Uy 
vlar 


donde f£ > O depende únicamente de k y s, € < es depende de k, s y g. 
Como ya hemos señalado en el $ 2.28, para demostrar este teorema utilizaremos la posibi- 
lidad de estimar sup p(w) para cierta función p y para el cubo unitario 
ER. 


Kos = (u = (4, ..., u“):0€uyxl, 1, ....Kk) 


a través de los valores de p(0) y | Ip" (w'diwAp'(u) = grad p(u). Para realizar esta posibki- 
Ko. 
dad necesitaremos la siguiente afirmación, cuya demostración reproducimos aquí, puesto que 
no figura en los conocidos manuales de análisis matemático. Por Cx, C, y Cx,. designaremos 
distintas constantes que Sólo dependen de sus índices. 
Lema l. Para cualquier s > k existe Cx,, tal, que 


l/s 


sup 1p(00! < Ip! + | f cavas] 
reKo.» Ko. 


para cualquier x € Ko 1. 
Demostración. Para x, y € ko. es válida 


3 
PO) = PQ) + ¡ "O + (xa - », x - pat. 
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Integrando esta igualdad respecto a y € Ko.), obtenemos 
] 
po) = | pde + ] | 00 +1), x- ydidy e hi + ha, (4) 


Ke. Ko 0 
donde f,, Tx designan el primero y el segundo, respectivamente. Sustituyamos en la integral 
zT-(Íx 
l—1 


f,, las variables y = . Entonces 


x-—z 
+ Nx Y)= 272 x-JYy = 
y + tx Y) =2 a aa” 


L= | (60, x-— DKU, Daz, (5) 
Ko. 


donde X(x, 2) = l. (5) OE , ¿es el indicador del cubo Ko,1. Si aquí susti- 


Iz - xl 1 u 
, entonces —— 


tuimos ¿ = ] — »- _—_——. 
lt Iz — xl 


y podemos escribis 


iz — xl 


Ko D=0-x17* | e 2) unta 


bz- xi 


En vista de que para cualesquiera z, x, el portador dela función y (> + e = = -) 
está presente en el segmento [0, 2YX), entonces 

2 
(2vA)' 


KG, Iz-xl7* ut ses — 
id e ¡ y klz — xl* 


Utilizando (5) y la desigualdad de Holder, obtenemos 


, 1/3 
IR <C; ¡ A | | entras) ; 


z- xl*- 
16.1 Ka. 


donde d Ur y L 
= k”! 2VkR ¡e : E CA — —u ll, 
Ce = k (QUA, J ( | E) A 


Ss 


Pero cuando s > k se cumple (k — 1)r = (£ — DS E, 


dz Wer 
116.209< ( q¿¡E= or m J(k, $) < o, 
K 


donde k es un cubo, o sea, X = (z: lyl <td j=1,..., A). 
36* 
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Ahora bien, en virtud de (4), 


sup Ip(0l < 1/11 + sup 1! < pro! + 2 sup 121 < 
xXx. Ek ae. 


la 
S po) + 2cxrH(k, s) ( | le'covra) Ñ 
Ko. 
E) lema queda demostrado. 
Asi pues, la estimación de sup lp(x)l| es posible en los términos de Ip(x)| cuando está 
xke. 
fijo x € Ko. y lp'*(1)1"du para s > k. Si seguimos el método que hemos utilizado en el 
0,1 
caso unidimensional, ahora necesitaremos estimar Mo |p '(1)1”, donde, en calidad de p(u) ele- 
glremos la función 
plu) = Z*(u). (6) 
Para esto, a su vez, necesitaremos los lemas siguientes. 
Lema 2. Sean ty, ¿ = 1, 2, ..., los vectores independientes e igualmente distribuidos 
de R*, ME, = 0, MIE 1" 7 < o, s 22, Entonces 
A 3 
M| >) e] < cr.ya””. 
Ji 
Demostración. Para simplificar los razonamientos nos limitaremos a examinar el caso 


cuando s = 2m es un número entero par”. En este caso es suficiente examinar las variables 
aleatorias escalares Ey, puesto que Ey = (Er, .... Ex), 


y. en virtud de la desigualdad de Minkovski, 


TEDETT Ar 


Ea] - Y) ME... Eb, (7) 
Hs. Ja 


Jos 


donde la suma se realiza con arreglo a todos j1, ..., ja enteros, tales, que Py = 5, ¿1% 1 
1 
Ur = 1 se excluyen, ya que ME; = 0). Según la desigualdad de Hólder, 


IMPI < (MIENYO = yO 
y, por consiguiente, 


II mes Il 4-7 


la: m1 


Nos queda estimar 2 1, Designemos por (X,, ...., kp) los elementos no nulos (k, > 2) 
Mo. Je 


del conjunto Y,, .... Jn) ( $ k, = s ]. Entonces, la suma sujeta a estimación será igual a 
de/ 


% La demostración en el caso general véase, por ejemplo, en [31], p. 255. 
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Y, Ap, donde A es el número de ubicaciones de los elementos K,, .... k, en n lugares. 

(£5,.- Lp) 
Es evidente que 4, < n(n - 1) ... (1 — p + 1). El valor mayor posible de p es igual a 
m <= 5/2 (éste corresponde al conjunto (2, 2, ..., 2), así que Ap € Am «€ 5”1”. Pero el número 
de conjuntos diferentes (k,, ..., £p) depende exclusivamente de s. Por consiguiente, la suma 
estimada no supera c,.1”. a 

Supongamos que la función p(u) ha sido definida en (6). 

Lema 3. Sí se cumplen las condiciones (2) y (3), 


Molp'(w)1” € cuya, 
Demostración 


Molp'(u)l” = Mo LUX, 0+1Z2u)] = 


= $ "MoelL '(X, 0 + WYUZ(U) =s "Meru IL (X, 0 + u)1?. 


Nos queda utílizar el lema 2, aplicándolo a las variables aleatorias E = !'(x;, 6 + 1). 
Designemos por K. a el cubo en R*, con lado de longitud A y con vértice en el punto 
Y = (8, ..., Ur): 
Kua = [veR*: uE yC<u+ Ad ml, E 
Lema 4. Si se cumplen tas condiciones del teorema 1, 


P YA E e a* e a/a 191 , 
(mp (2) ) <a (e * + e “e” 1%! pg 


l sk 
donde $ = mín 2'7k 
Esta misma estimación será cierta para cualquier cubo con lado de longitud A y que 
contiene el punto u. 
Demostración. Representemos el punto v € K,,a en forma de v = u + (A, donde f € Ko 1. 
Bntonces 


Pap zZ[2)>e) =P z 112) ">. 
1) (2) > ) : pr ( vn pa 


u+tá 
=P sup >.) 
j (suo. ( ín ) 
En virtud del lema 1, 


ero) 0] pla] 


Ko.y 
1 
— | = Po + Po, 
SA (0 a) 


donde P(, y Pq, designan el primero y el segundo sumandos, respectivamente. Estimemos 
P«,, con ayuda de la desigualdad de Chtbishev y del teorema 28.1: 


- (51 15/4k 
> E ll 


_ mig 
Pau) < 22M2-Yimyz1? (+) 5 210 “e i ; (8) 
A 
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Para estimar Pz también utilizaremos la desigualdad de Chébishev: 


Pos = Po ( | ns AD < 
Ko.» 
, ES lar = 
mn Ya 
A Y u + /164N Y 
IÓ E sist CA mr A Bs 
(2) y .| ( 22) 


£ e” (cx. Mo ¡ 


En virtud del lema 3, 


3 
Pa) € cr..e * (4) qa a crrye” “a”. 6) 
Yn 
Poniendo 
E Iwi*g 
Ad =e Ak 


y suponiendo, sin limitar la generalidad, y > 1, obienemos 


PS QUA Ut Tere A E QA yal x 


E ut? SS luBgo- 
x [+--. 4 + e"te A < qu + Cas)yA*(e7*? + ete” 


donde 


Le última afirmación del lema se deduce, evidentemente, del lena 1 y de la demostración 
expuesta. BJ lema queda demostrado. < 

Demostración del teorema 1. Cubramos todo el espacio R* de un sistema de cubos Ka 
en los que las coordenadas de los puntos « son múltiplos de A. El número de tales cubos, 
que se intersecan con la capa $, = (vER*: r £ lul < r + 1), está limitado por la cantidad 
car*7*. Por lo tanto, 


Pe € sup Z (<) >.e) < ar aye? + e7 ne- Us, 


0er) cnn E rc 


La sucesión (r + /)*=1e" “+20 para todos j > ¡(k, Bg), donde ¿(k, Bg) depende únicamente 
de sus argumentos, decrece más rápidamente que la progresión geométrica con exponente 


5 - Por eso, la serie en el segundo miembro de (10) no supera, para todos r, el primer sumando 


DEMOSTRACIÓN DB DOS TBOREMAS FUNDAMENTALES s67 


con una exactitud de hasta la constante que sólo depende de k y fBg. Como supr*”*x 
rad 


1 

- ro 
e ? < «o también depende únicamente de k y fig, entonces 
] 


Pol sup Z (2) > e) £ oye”? + ete 2 
lvl yr vn 


donde c depende de k, s y Pg. Sustituyendo aquí E por $, obtenemos la afirmación del teore- 
ma. <A 


res 


Suplemento VIII 


Demostración de dos teoremas fundamentales de la teoría 
de los juegos estadísticos 


Aqui vamos a suponer que se cumplen las condiciones siguientes. 

Condición (A). El conjunto de decisiones D y el conjunto de pardmetros (estrategias 
puras de la naturaleza) O son espacios métricos compactos con métricas Qn y Qe, respecti- 
vamente. 

Condición (B). La función de pérdidas w(5, 0): D x O — R es continua respecto a $ 
y 0 en las métricas Qo y q0, respectivamente. 

No necesitaremos la propiedad de w(5, 0) > O y no supondremos que ésta tenga lugar. 

Además, disponemos de la muestra Y € Py, de la distribución Ps. Su volumen na, sin 
limitar la generalidad, se puede considerar igual a 1), 

Condición (C). Las distribuciones P., con arreglo a la varlación son continuas respecto 
a 0, o sea, 


sup lP,, (3) — PAD > 0 
bBz 


si q0l(0=, 0) — 0 cuando m — «o. 
Si se cumple la condición (A,, o sea, si Po dene una densidad fo() respecto a cierta 
medida a-finita « en (2, By): 


falo = E 60. 


entonces la condición (C) será equivalente a la continuidad de f(x) en Li(2; Ba, a): 


[UJonc) — Sel) latax) — 0 


si q0lW4n, 6) — O cuando m — oo, 

Las condiciones (A), (B) y (C) admiten, claro está, la posibilidad de ser finitas a los 
conjuntos D y O. 

Si D es finito y consta de los puntos $,, ..., 5, entonces se cumplirá la condición A 
respecto a D (la elección de qp no tiene importancia), y la condición (B) significará la conti- 
nuidad de las funciones w(3,. 9), ..., w(S, 0) respecto a qe. 

Si ambos conjuntos D y € son finitos, las condiciones (A), (B) y (C) serán cumplidas 
automáticamente. 

Designemos por op y ve las o-álgebras de los conjuntos de Borel de D y de O, respectiva- 
mente. Siguiendo el $5 5.3, designernos por ($, Ó, W) el juego estadístico promediado, donde 
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como elementos de Y sirven las distribuciones Q en (0, 09), y como elementos de $, las 
distribuciones x() = x(x, -) en (D, op) (para cada x € 2), donde r(x, A) para cada A € op 
es una función medible respecto A x. 

La función de riesgo W(r, Q) es defináda por la igualdad 


Mr d= | / [ w(u, rx, dMAJQ(O. 
0 Y D 


Si en vez del argumento Q se pone d, entonces W(r, 6) significará W(w, Is), donde 7» es 
la distribución concentrada en el punto 9. Este mismo acuerdo será válido respecto a la sustitu- 
ción de r € 4, por 5€.2, También será más cómodo escribir W en vez de W, ya que esto 
nunca conducirá a equivocaciones. 

Lema 1. Sí se cumplen las condiciones (A), (B), (C), la función W(x, 6) serd continua 
en 9 para cualquier estrategia w(x). 

Demostración. Tenemos para 0, — 0: 


Wir, 6.) E Wir. A! < IMoM(w(x(X), 9) sá w(r0U0, N/A)! + 
+ IMoM[w(r(A), 01)/X] — Mo,M[w(T (10), 0:)/XD < 
<[Imr(, 8) - wo, 0) iPe(dx) + sup) w(s, 01 | 1Po.(ax) - Pe(dx)!. (1) 
3,0 
La primera integral aquí converge a 0 en virtud de la continuidad de la función w respecto 


a 0. La convergencia 8 cero de la segunda integral se deduce de Ja condición (C). En efecto, 
sea fa. (x) la densidad P+, respecto a la medida 


po. P, + Y; 2"4Po, 
J=1 
y sea Ba = [x. f(x) > fe(x)3. Entonces, la segunda integral en (1) será igual a 


[ Uat) — So00 Indo) = 2 | Ye.00 — fduldx) = UPA. (Ba) — Po(Ba)) — 0. 
A, 


El tema queda dernostrado. 


Teorema 1. (primer teorema fundamental). Si se cumplen las condiciones (A), (B) y (C), el 
Juego (2, O, W) tendrá precio y estrategias minimáx de ambos jugadores. Con otras pa- 
labras, existirá la distribución menos favorable Q y la regla minimáx de decisión +(x): 


W,= sup iof W(*, Q) = W(%, O) = inf sup Wíx, Q) a= W”. (2) 
o Tr Q 


En virtud del lema 2.1, la afirmación (2) es equivalente al hecho de que 
W(=, 1) sup WG, 0) = W(r, Q) = inf W(x, Q) » W(, Q). (3) 


Teorema 2 (segundo teorema fundamental). Si se cumplen las condiciones (A), (B) y 
(C), las decisiones bayesianas r*o(x) formarán una clase completa. Con otras palabras, para 
cualquier «o € Ú habrd Q € 8, ro € SÍ tales, que 

1) W(ro, Q) = W(1, Q), 

2) Wíixq, 0) € Wíso, 0) para todos 0. 


Demostración del teorema 2. El segundo teorema fundamental es el corolario del primero. 
Examinemos la estrategia arbitraria wo € $ y el juego ($, O, We), donde We se ha construido 
a base de la función wo(6, 6) = w(9, 6) — W(xo, 0), así que 


War, 0) =W(r, 0) — W(xo, 0). (4) 
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En virtud del lema 1, la función v(0) = W(xo, 0) es continua en 9 y, por lo tanto, la función 
de pérdidas wo(5, 0) = w(8, 6) — v(9), junto con w(é, 6), satisface la condición (B). Esto signi- 
fica que el teorema 1 es aplicable al juego (4, Ó, Wo). En vista de que Wo(wo, 1) = 0 (véase 
(4), el precio saperior de este juego satisface la condiciónW3 « O. Entonces, de (2) y (3) 
se deduce que existen T, Q tales, que 


e 


Estas dos relaciones son equivalentes a las afirmaciones 2) y 1) del teorema 2 si se pone Q = Q, 
Y = To. El teorema queda demostrado. 

La demostración del teorema 1 se deducirá de los dos lemas siguientes. 

Lema 2. Al cumplirse las condiciones (A), (B) y (C) existirá una distribución Q tal, 
que W(L, Q) > inf Wíx, 1) m W. 

Lema 3. Al cumplirse las condiciones (A), (B) y (C) existirá una estrotegía Y tal, que 
WI", T) € W, 

De las desigualdades de los lemas 2 y 3 se desprende la relación 


W > W(z, 1) > W, Q) > W(, Q) > W 


equivalente u (3) y, por consiguiente, a (2). Esto demuestra el teorema 1. < 

Los lemas 2 y 3 dividen la demostración del teorema 1 en dos partes. La primera de 
ellas (lema 2) está muy poco relacionada con el hecho de que el juego es estadística. Esta 
parte de la demostración se realiza aproximadamente igual que para los juegos ordinarios 
(compárese con (31)). 

Demostración del lema 2. Sea V un conjunto de funciones O — R representables en forma 
de v(8) = W(x, 6), x € $. En virtud del lema 1, todas las funciones de V son continuas, 
así que Y C C(0), donde C(0) es el espacio de todas las fuaciones continuas en 9. Asimismo, 
sea v,(0) = W(x,, 9), v2(0) = W(m, 0). En vista de que para pe (0, 1), 


v(6) = pur(6) + (l — pjua(9) = Wipr, + (1 — p)x2, 0), 
T=> pri + (1- pre, 


entonces, v € Y y, por lo tanto, el conjunto V es convexo, 
Ahora notemos que W” = inf W(x, 1) = inf sup v(6). En vez de la función inicial 
v vev 4 


w(5, 0) —- m + 1 % a 
w(5, 0) no será más cómodo exarninar la O , do = lnf inf v(0). Desig- 


— Y + 1 »y 3 
nando la mueva función otra vez por w(3, 0) (en este caso el problema queda invariable), 
obtenemos que para ella 


W<=1 w>o. (5) 
Sea ahora U un conjunto de funciones continuas v(6): O — R tales, que sup (9) < 1. 
0 


Es evidente que U es un conjunto abierto convero de C(O). Además, de (5) se deduce que 
la intersección VN U está vacía. Por eso, en virtud del teorema de Hahn — Banach (véase, 
por ejemplo, [31], p. 171, 200-206) existe una funcional lineal L(v): C(0) — R tal, que 


L(yY<i!l para beEU, L(v > 1 para v€ Y. (6) 
Esta funcional posee, cuando es necesario, la propiedad L(v) > 0 si v(J) m inf v(6) > 0. En 
0 


efecto, admitiendo la existencia del elemento u € C(O), ve(3) > 0, para el cua) L(w) < 0, obte 
nemos que uv, = —3w € U, cualquiera que sea s > 0, L(u) = —s£L (vo) > | y siempre que 5 
sea bastante grande. Esto conduce a cierta contradicción con (6). 
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Pero la funcional no negativa L, en virtud del teorema de Riesz ([42)], p. 240), admite 
la representación en forma de la integral 


L(») = | v(9)Md8), 


0 
donde A es una medida finita. Como 1 > sup L(v) = A(0), entonces, poniendo Q(4) = 
veU 
= A(4)/M0), obtenemos para y € V: 
L(v) = [W(z, OMd8) = MO)Wíx, Q), 


— 1 
W(, 0) = MO) nte) >1=w. 


El lema queda demostrado. 

Demostración del lema 3. En vista de que la función W(x,0) para cada x €S es continua 
respecto a 6 (véase el lema 1), nos es suficiente construir la estrategia + para la cual, con 
todos k = 1, 2, ..., 


W(x, 0x) < W”, (7) 


donde 0 son puntos de cierto conjunto numerable T' = (10,, 02, ...) siempre denso en D. 
Según la definición del precio superior de W”, existe una sucesión de estrategias sa = rn(X,") 
tal, que 


W(ta, 9) < W” + 1/n (8) 


para todos Kk. 

Ahora, mediante las distribuciones , construyamos la sucesión de elementos aleatorios 
especialmente seleccionados f, y separemos de ella la subsucesión convergente. Para esto, 
designemos por fe, (x) la densidad de la distribución Po, respecto a la medida probabilística 


pe = Y 27” *Po,, así que 
Je1 


Wíta, 04) = | oca, Or) xa (x, du)foCouldx). 


Examinemos el espacio D x R”, donde R” es el espacio de los valores de los elementos f(x) = 
= Ya, 00. fa(x), -..) con o-4lgebra 8” engendrada por los conjuntos cilíndricos. Pongamos 
a cada estrategia r en correspondencia con el espacio probabilístico (D x 2, ao98B,y P), don- 
de la distribución P es definida por la igualdad 


P(5EA, XEB) = | a(dx)r(x, A), Atop, A€Yrx. (10) 
DB 


Definamos en este espacio los elementos aleatorios Y = $(8; A) = (8; fo, CO, fe(0, ...) = 
= (5; AX)) y designamos por $, los elementos correspondientes a ro, así que f. son variables 
aleatorias en el espacio probabilístico muestral (D x R”, up x Y", I,), y la distribución Il. 
ha sido engendrada por x,, por la fórmula (10) y por la aplicación 7 (8, x): D x Z> D x R”. 

Designemos por 11%) las contracciones de la distribución NM, en D x R* (es la distribución 
compatible (9; f(A), ..., JA(X)), y por A la distribución f(X) en (2; Bz a). Necesitaremos 
el 

Lema 4. Existe tal disitribución en el espacio medible (D x R”, op X B”) y tal subsu- 
cesión ( mn.) (al (mm), que 


n% - q (11) 
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para cualquier k (1%? son las contracciones de TI), 
TD x C)= MC), CEB”. (12) 


La demostración del lema 4 sc ofrecerá más tarde. 

Designemos por $ = (3; /) cierto elemento aleatorio con distribución TL La relación (12) 
significa que la distribución f coincide con A (la segunda “coordenada” ,, no modifica la 
distribución al variar n). Como el espacio D constituye un compacto métrico, el mismo es 
separable y, por consiguiente, (véase [38], p. 191) existe cierta distribución condicional (regu- 
lar) 3 respecto a f(X), la cual designaremos por M(-//(x)). 

Examinemos la estrategia T(x, A) = IT(S € A/Ñ(A)) y demostremos que para ella se 
cumpk (7). 

Señalemos previamente que 


Mw, do, = MIMO, 6/2) = [/,(0| w(u, Oihi(u, dejaldx) = WE, 0%). (13) 


Seguidamente, en virtud del lema 4, la distribución (3,., /s(X)) converge débilmente hacia 
la distribución (3, f.,(X)). Como la función w es continua, la distribución compatible 
(w(5,:, 0x), fo, (AO) converge débilmente hacia la distribución (w(3, 6x), fo, (A). Pero la fun- 
ción g(u1, v) = w(u, 0x)u es continua respecto a u y y y es mayorada por la función g(u) = cu, 
ca máx w(u, Ox) tal, que ME, (10) = clfe,(x)u(dx) = c. Por eso, según el teorema de 


continuidad para los ruomentos (véase el teorema 1.5.4), 
Him Mel... fa(A)) = MS, JO), 


e... 
o bien, que es lo mismo, Ao 1 Mw(dr., 00 (X) = Mw(, 6x0, (X). 
En virtud de (9) y 03). e nos ofrece la convergencia 
Uma W(xa, 91) = W(E, 04). 
En vista de que el primer miembro de esta igualdad (véase (8)) no supera W”, el lema 3 
queda demostrado. 

Demostración del lema 4. Fijemos cualquier k > 1 y examinemos D x R* como espacio 
separable métrico completo respecto a la métrica engendrada por la métrica euclídea en R* 
y la métrica op. Para cualquier e > 0 en R* habrá un compacto K, tal, que P(U, (4, .... 
fu) € K) 2 1-e€ DxK, es un compacto un D x R* y como 


P (0, € D, (4.40, ...» SíXAY € Ke.) > Il - l, 


la sucesión de las distribuciones 11%? es densa (véase [5)). Por consiguiente según el teorema 
de Prójorov El existe una distribución TI”? y una subsucesión sn = (nf, n£, ...) tales, 
que IZA, » , Pero las distribuciones MW , evidentemente, se hallan en concordancia y, 
por poi pa según el teorema de Kolmogórov, en (D x RY, up X UB”) existe cierta distri 
bución TI para la cual TR? son las contracciones en (D x R*, oo X Y). 

Por otro lado, podemos considerar que n4*" c q%. Poniendo n* = (11”, $, 5, . 
obtendremos una subsucesión para la cual Kg? » TIW? con todos los valores de £. 

Demostremos ahora (12). Ses C € Y ” un conjunto cilíndrico tal, que la M-medida de 
su frontera es igual a cero. Designemos por CW? = CNR*EB* d conjunto de R* formado 
por las primeras k coordenadas de los puntos de C, y pongamos 04? = CM y RT EB”. 


Entonces AC) = HP(D x C%) +» PD x C%), Como T4*P CTN Ca A, 


entonces tl 
MO) = Km a MEW) = Limo TD x CM = Mm a 1D x CUR = TD x C). 
El lema 4 coda. demostrado. 


Tabla L Distribución uormal %y, 
En la tabla se dan los valores de 


$() = do.1(% 00) = E [ena 


Tabla I (continuación) 


Tabla 11. Cuantilas de la distribución normal 
En la tabla se dan los valores de », tales, que 


PAY = PoríQe, 00) = E. 
Tabla II 
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Tabla MI. Distribución jicuadrado Hx 
En la tabla se dan los valores (véanse el $9 2.2) 


1 
Hr(x) = He((e, 00)) = —_—— 11-10-21 
rs) = Hello, 0) = 3 mi 
cuando 1 < k < 20. Para mayores valores de k se puede utilizar la aproximación (véase el 
$ 2.2, tabla 1) 


HG) = P(V2x — Y2k — 1) eLo). 0) 


La última columna de la tabla contiene los valores de A+(x) cuando k = 20. Comparán- 
dolos con los valores dados en la cohumna anterior se puede estimar el grado de precisión 
de la aproximación (1). Con el aumento de k dismiuuye el error. 


Tabla III 


22 ¿9991 
4 ¿9953 
16 ¿9880 
8 ¿$770 
0 ¿9626 
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Túbla IIT (continuación) 
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Tabla IF! (continuación) 
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Tabla III (continuación) 


37- 86036 
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Tabla IV. Distribución de Student T, 
En la tabla se dan los valores de 


fa + P/ky %*Wg¿ 


z 


MA + 9/2 


Tux) = Ta((x, c0)) = 
2 DA kx T (k/2) 


cuando 1 < x < 20. Para mayores valores de £ se puede utilizar la aproximación (véase 
el $ 2.2, tabla 1) 


Te(x) = 9) = do ((x, 00)). (2) 


La exactitud de aproximación (2) cuando k = 20 se puede apreciar comparando la última 
columna de la tabla con la tabla 1. 


Tabla IV 


= 
[> 47 Ko] 
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OQOoOAANQZHhhuvO0A hal mv Osa >nN 
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Tabla IV (continuación) 
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Tebla TV (continuación) 
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Observaciones bibliográficas 


Más abajo se aducen algunos comentarios bibliográficos en los que se hacen intentos 
de seguir la historia de aparición de las ideas y los resultados fundamentales expuestos en 
este libro. Dichos comentarios no pretenden ser completos y a menudo contendrán referencias 
no a artículos originales poco abordables, sino a manuales, monografías o artículos de resw- 
men, en los que es más fácil hallar los resultados necesarios. Por ejemplo, en [95] y [57] 
se ofrecen indicaciones bibliográficas e informaciones históricas más amplias. 

Algunos conceptos fundamentales de la estadística matemática surgieron ya a principios 
del siglo pasado y están relacionados con los nombres de Laplace y Gauss. A finales del 
siglo pasado, los trabajos de K. Pearson dieron comienzo a un período de desarrollo intenso 
de dicha ciencia. El mismo ha sido condicionado por las obras fundamentales de R, Fisher, 
3. Neyman, A. N. Kolmogórov y A. Wald. En la Unión Soviética, el desarrollo de la estadística 
matemática se halla relacionado, antes que nada, con los nombres de A. N. Kolmogórov y 
N, V. Smirnov. 


Capítulo 1 


$5 2—A4, El teorema de Glivenko — Cantelli fue establecido en el año (a Glivenko le perte- 
nece su demostración para una distribución continua, y a Cantelli, para el caso general). 

La demostración del teorema 1.2.2 se asemeja a la expuesta en [61), p. 28, y es un caso 
particular de utilización de un enfoque más genera] basado en la “aproximación finita” de 
la dase de conjuntos sujetos a estudio. En su forma completa, este enfoque se ofrece en el 
Suplemento 1, donde ha sido demostrado el teorema 1.4.2. Un enfoque análogo fue examinado 
independientemente en (27). La ley del logaritmo reiterado (teorema 1.4.3) fue establecida 
en [$2]. 

$ 6. Los teoremas 1.6.1 y 1.6.2 de ta distribución de nFx(f) se dan en el libro de Feller 
[32], t.2, $ 3, cap. II. El teorema 1.6.3 de la convergencia del proceso VMEN(f) — F(0) hacia 
el puente browniano, demostrado en el Suplemento [I, fue establecido por Donsker en [28). 
Una demostración algo diferente (en comparación con el Suplemento Il) del teorema 1.6,3 
se ofrece en la obra de Billingsley (5). 

$ 7. La afirmación del ejemplo 1.7.3 acerca de la distribución límite de la estadística 
(A) Gi-cuadrado) fue por primera vez obtenida por K. Pearson (véase [25], p. 434). 

$ 8. La afirmación del corolario 1.8.2 constituye el contenido del teorema de Kolmogórov, 
y la del corolario 1.8.3, el del teorema de Smirnov. Este último también comprende la forma 


582 OBSERVACIONES BIBLIOGRÁFICAS 


y] 
explicita de la distribución de f (w*(1)dt, que omitimos debido a su complejidad (véase 
(78). 0 
$ 10. Las estimaciones de la densidad que se examinan en este párrafo fueron introducidas 
por Parzen [72] y Rosenblatt [79]. La bibliografía y el análisis de los resultados en esta direc- 
ción se exponen en el trabajo de resumen de Rosenblatt [80] y en el $ 25 del libro de Chentsov 
(19). 


Capítulo 2 


$ 2. Algunas otras familias paramétricas se describen en el libro de Wilks [93]. Una inves- 
tigación muy completa de las distribuciones de los términos de la serie variacional fue llevada 
a efecto B. V. Gnedenko. Una exposición completa de los resultados y una amplia bibliografía 
al respecto se pueden hallar en Ja obra de David [26]. 

$ 4. El método de momentos es, históricamente, el primer método regular de construcción 
de las estimaciones. El mismo fue propuesto por K. Pearson en 1894, 

$ 5. El méiodo del mínimo Y fue propuesto por R. Fisher en 1922. 

$ 6. El método de verosimilitud máxima en casos particulares fue empleado aún por 
Gauss. Como método general para obtener las estimaciones, el mismo fue propuesto por 
Fisher en 1912 en un artículo breve. Más tarde, en 1925, Fisher estudió las propicdades asintóti- 
cas de la e.v.m. en su obra clásica [35]. 

$5 7 y 8. Los enfoques expuestos, dedicados a la comparación de las estimaciones, son 
universalmente reconocidos. Hemos adoptado la demostración del lema 2.7.3 dada en (25). 
El concepto de estimación eficiente fue introducido en 1922 por Fisher en [34). 

85 9 y 10. El concepto fundamental de esperanza matemática condicional fue introducido 
en 1933 por A. N. Kolmogórov en su obra clásica [54]. Las propiedades de las distribuciones 
condicionales fueron detalladamente estudiadas en (38), (30) y [84]. 

$ 11. El enfoque bayesiano ha sido ampliamente utilizado por Laplace aún en el siglo 
pasado. Este enfoque fue criticado por Fisher, y en los años 20 y 30 de nuestro siglo, el centro 
de gravedad de las investigaciones se desplazó hacia las estimaciones eficientes y asintótica- 
mente cficientes. Más tarde, a medida que se concebía el papel fundamenta) del enfoque baye- 
slano, otra vez comenzó a crecer el interés por este último. 

El concepto de estimación minimax se introdujo en la estadística matemática junto con 
el enfoque de la teoría de los juegos, desarrollado en los trabajos de Borel (1921) y J. Neyman 
(1928); los teoremas 2.11.1—2,11.3 fueron obtenidos por Hodges y Lehman (44). 

$ 12. El concepto fundamental de la estadística suficiente fue introducido en 1922 por 
R. Fisher en [34], quien, y más tarde J, Neyman [66], propusieron un criterio simple que revela 
la existencia y el tipo de estadistica suficiente. Este critesio fleva el nombre de teorema de 
factorización de Neyman — Fisher y está representado en el teorema 2.12.1. La estricta demos- 
tración del teorema de Neyman — Fisher, desde el punto de vista de la teoría de los conjuntos, 
fue obtenida tan sólo en 1949 por Halmos y Savage [43]. 

$ 13. El concepto de v-álgebra suficiente es más ampllo que el concepto de estadística 
suficiente. Las condiciones necesarias y suficientes para su coincidencia se dan en [95). Tanto 
la construcción de las particiones suficientes como el teorema 2.13.1 están relacionados con 
el trabajo de Lehmann y Scheffe [59] dedicado a la aclaración de las condiciones de existencia 
y a la construcción de las estadísticas mínimas suficientes. La exposición breve de este artículo 
se ofrece en (95). La demostración del teorema 2.13.2 le pertenece a 1. S, Borísov. 

5 M. El teorema 2.14.1 fue independientemente obtenido por Blackwell [6) (1947), Rao 
175) (1945), (76) (1949) y Kolmogórov [53] (1950). Los autores del teorema 2.14,3 son Rao 
[76] (1949) y Blackwell [6] (1947). 
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6 15. La familia exponencial ha sido mencionada por Fisher aún en (34], pero su impor- 
tancia teórica fue concebida en los años 30 en las obras de Pitman, Kupman y Darmoíis. 
Por eso dicha familia a veces lleva los nombres de estos científicos. El teorema 2.15.2 fue 
demostrado por Lehmann (157), p. 183). 

85 16 y 17. La desigualdad de Rao — Cramer a veces también se denomina desigualdad 
de información. De hecho, ésta pertenece a Fisher [35), uunque en la forma expuesta fue 
independientemente obienida por Frechet (37) en 1943, Rao [74] en 1945 y Cramer (24] en 
1946. 

Las condiciones de regularidad, necesarias para el cumplimiento de la desigualdad, en 
los manuales de estadística matemática no siempre se interpretan correctamente, Se trata de 
las condiciones que aseguran la validez de la derivación respecto al parámetro bajo el signo 
integral. La demostración de dicha valídez a menudo contiene lagunas (véase por ejemplo, 
[95]) o su exposición no se ofrece en absoluto (por ejemplo, en [86)). En una serie de casos, 
la misma se menciona en forma de condición [86)), lo cual no es cóntodo para la verificación 
en problemas reales. 

Las condiciones de regularidad adoptadas en el tibro son muy simples, aunque, por lo 
visto, no son las más generales (compárense con ((48)). El hecho de que en estas condiciones 
se pueda derivar bajo el signo integral, fue demostrado en el Suplemento Vl escrito a base 
de los resultados obtenidos por A. l. Sajanenko. 

En [95] y [19] se ofrecen distintas generalizaciones de la desigualdad de Rao — Cramer. 
El concepto de información (de Fisher) fue introducido en (35). Al demostrar los teoremas 
2.16.1A y 2.17.1 nos hemos guiado por los libros [95] y [48]. 

$5 18 y 19. A Hotelling y Pítman les pertenece la idea de utilizar las consideraciones 
invariantes. S. Stein contribuyó considerablemente al desarrollo de ta teoría. El contenido 
principal del teorema 2.18.1 le pertenece a Pitman. Al demostrarjo hemos utilizado las exposi- 
ciones en [95] y (48). El carácter minlmax de la estimación de Pitman fue establecido por 
Girchik y Savage. 

$ 20. Los resultados de este párrafo fueron obtenidos por el sutor Junto con A. 1. Sajanen- 
ko [13]. Cuando las limitaciones son más rígidas, algunas desigualdades también se pueden 
obtener de las obras [40] y [18]. 

$ 21. En el caso paramétrico, la distancia de Kullback — Leibler también se llama función 
de información de Kullback — Leibler. Al describir las probabilidades de las grandes divergen- 
cias de la distribución empírica, 1. N. Sanov llegó independientemente a la referida distancia. 
La idea del amplio uso de la distancia de Hellinger para estudiar las propiedades de la relación 
de verosimilitud fue adoptada del libro de Ibraguímov y Jasminski (48). Las demostraciones 
de los principales teoremas del 5 23 también se basan en los resultados de este libro. La demos- 
tración del teorema 2.21.3 ha sido considerablemente simplificada por A. !. Sajanenko. 

$ 22. El teorema 2.22.1 fue establecido en 1952 por Chapman y Robbins en (17] y en 
1952 por Kiefer en (51). 

$$ 23—25. Se expone el material de nuestras conferencias, perfeccionado considerable- 
mente después de la aparición del libro de Ibraguímov y Jasminski (48). Los prefeccionamien- 
tos principales están relacionados con la utilización sistemática de la distancia de Hellinger 
para estimar M+Z'”(u). A. l. Sajanenko propuso utilizar [Mo1(Z**(1))1 du para estimar 
sup Z(u) (véanse los teoremas 2.23.1 y 2.23.2). Aún Fisher, en [35], estableció la normalidad 

Y 


asintótica y la eficacia asintótica de la e.v.m. Condiciones muy generales de la normalidad 
asintótica de la e.v.m. fueron obtenidas en [48). 

La normalidad asintótica de la densidad a posteriori (o de la relación de verosimilitud) 
fue descubierta por S. N. Bernshtein en 1927, El teorema 2.25,4 pertenece a Bahadur [1]. Los 
caracteres asintóticamente bayesiano y asintóticamente minimax de la ev.m. se obtienen fácil- 
mente merced a los resultados del $ 2.20. Antes, el carácter asintóticamente bayesiano de la 
ev.m. se establecía con limitaciones más rígidas para la densidad de la distribución a priori. 
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Hemos utilizado, para demostrar los teoremas 2.24.1 y 2.24.2, algunos perfeccionamientos 
propuestos por A. 1. Sajanenko. 

5 26. Se expone una de las varlantes del método numérico de Rufíson para determinar 
el extremo de la función. Véase la exposición con más detalles en [95]. Hemos adoptado el 
ejemplo 3 del libro de Rao [76]. 

$ 27. La investigación de la concitiabilidad de la ev.m. fue comenzada en los años 30 
y 40 en los trabajos de Doob [29), Wald [88], Wolfowitz (941 y Cramer [25]. Las principales 
condiciones de conciliabilidad comprenden, en [88) (además de las condiciones (A). (40), 
(Ao)), la pertenencia de /.(x) a la clase Do y la Integrabilidad de 


[ln 200(0a(do). 


En la monografía [48) fueron obtenidas las condiciones de conciliabilidad que utilizan la con- 
vergencia 


| uo A — FGD n(dx) > 0 para A—0. 


Los resultados de los teoremas 27.1 y 27.2 y de sus corolarios son más generales. El método 
de demostración es semejante a [88]. La suficiencia de las condiciones (48) y (2.27.2) fue 
revelada por A. 1. Sajanenko. 

6$ 28 y 29. Véanse los comentarios a los $5 23—27. Hemos adoptado el ejemplo 2.28.1. 
del libro de Van der Waerden [86]. 

En la exposición de los párrafos 28 y 29 hemos introducido varios perfeccionamientos 
en comparación con la variante inicial, o sea, mejoras propuestas por A. l. Sajanenko (en 
particularidad, hemos añadido el teorema 2.29.5). Estas modificaciones permitieron simplifi- 
car el texto en los $6 13-15 del capítulo 3. 

$ 30. La estimación sucesiva se expone con más detalles, por ejemplo, en [93]. 

$5 31 y 32. Por lo visto, fue Laplace quien introdujo por primera vez los intervalos confi- 
denciales. Aún en 1812 él mostró que se podía invertir respecto a p la afirmación acerca del 
grado de divergencia de la frecuencia observada y de la probabilidad binomial p, con cl fin 
de hallar el intervalo para los posibles valores de p. En 1927, Wilson dio la justa interpretación 
de los intervalos confidenciales (la cual no supone la casualidad del parámetro). 

En 1930, Fisher, en [36], propuso un método general de determinación de los intervalos 
confidenciales exactos. En 1937 y 1938 Neyman desarrolló la teoría general de afirmaciones 
confidenciales y estableció su relación con la teoría de verificación de las hipótesis. La moder- 
na exposición, muy completa, de esta cuestión se puede hallar en el libro de Lehmann [$7]. 
Hemos utilizado esta exposición en el $ 3.7. 

El teorema 2.32.1 y el lema 2,23.2 le pertenecen a Fisher, 


Capítulo 3 


Las primeras aplicaciones de los criterios estadísticos remontan a Laplace (final del siglo 
18). El uso sistemático de los criterios para verificar las hipótesis se inicia a partir de los 
trabajos de K. Pearson, quien propuso, en 1900, el criterio x?. Los principales conceptos de 
errores de primero y segundo género fueron introducidos en 1928 por Neyman y Pearson 
en [68]. Estos mismos autores fueron los primeros en concebir la importancia de las alternati- 
vas para clegir racionalmente el criterio. En la obra conclusiva de Neyman y Pearson [69] 
se desarrolla la teoría del c. u.m.p. 

El libro de Lehmann [57] contiene la exposición sistemática de la teoría de verificación 
de las hipótesis. 

$6 1—3. El lema fundamenta! de Neyman — Pearson fue obtenido en [69]. Los teoremas 
3.1.1 se pueden extraer del libro de Blackwell Girshik (?7]. El tibro de Lehmann (57) contiene 


OBSERVACIONES BIBLIOORÁFICAS 585 


el teorema 3.2.1. El teorema 3.3.1 de las grandes divergencias le pertenece a Cramer (véase 
[11)). La estimación de la calidad de los criterios, relacionada con las probabilidades de las 
grandes divergencias, constituyó la base del concepto de eficacia del criterio de Bahadur. En 
(3) se exponen los resultados de las investigaciones con arreglo a esta tendencia. 

La importancia de la estadística de aportación eficiente fue revelada aún en 1925 en la 
obra de Fisher [35]. En lo sucesivo, el enfoque relacionado con el estudio de las hipótesis 
semejantes fue desarrollado intensamente en los trabajos de Le Cam, Roussas y Chíbisov 
(véanse también los comentarios a los $5 3.14 y 3.15). 

5 4. La referida concepción general de los criterios estadísticos ha sido universalmente 
reconocida (véanse (25] y ($7)). El concepto de cu.m.p. fue introducido por Neyman y Pearson 
en [69]. Aún en el siglo 19, Laplace utilizó el enfoque bayesíano. 

$9 5—8. Los resultados principales de estos párrafos se han tomado del libro de Lehmann 
[$7]. La exposición también es sernejante a la de este libro y se distingue por el hecho de 
que se basa no en el lema generalizado de Neyman — Pearson (lema 3.5.2, véase también 
[$7)), sino en el enfoque bayesiano. Esto simplifica la exposición y la hace más armoniosa. 

Ciertas observaciones referentes a los conjuntos confidenciales se exponen en los comen- 
tarlos a Jos $6 2,31 y 3.32. 

En el libro de Grenander [39] se examina ta posibilidad de extender los resultados princi- 
pales a los procesos aleatorios. 

5 9. Los autores del teorema 3.9.1 son Hodges y Lehmann [44]. 

5 10. El papel fundamental de la relación de verosimilitud en la estadística matemática 
fue aclarado en los trabajos de Neyman y Pearson [68], [69). Al estudio del c.r.v. se han dedica- 
do muchos libros. Ciertas tentativas de establecer unas u otras propiedades de optimización 
asintótica de este criterio se ofrecen en los trabajos (2), [88], (71), [93] y [45). 

5 11. Wald [89] fue quien más contribuyó al desarrollo de la teoría del análisis secuencial. 
La exposición más completa de los resultados principales, por la cual nos guíamos en nuestro 
libro, se ofrece en [S7!. 

$ 12. Los criterios de Kolmogórov y «w* se exponen en el 5 1.8 y en los comentarios a 
este último. A su vez, algunas modificaciones del criterio de Kolmogórov, que proporcionan 
ta potencia máxima posible, se dan en [16]. El criterio de Moran fue propuesto en [64). Su 
potencia para las alternativas semejantes se estudió en [91) y (20). 

$ 13. El carácter asintóticamente bayesiano del c.rv. ue determinado en el trabajo del 
autor de (10]. Los resultados de la distribución límite de la relación de verosimilitud para 
la hipótesis principal fueron obtenidos por Wilks [92] y Wald [87] (véase también el libro 
de Wilks [93)). Wald utilizó la idea de sustituir la hipótesis compleja por una hipótesis prome- 
diada. En el trabajo [60] se examina la forma asintótica de los criterios bayesianos. Véanse 
también los comentarios a los $$ 28 y 29 del capítulo 2. 

$6 14 y 15. Las principales ideas relacionadas con la determinación de los tests asintótica- 
mente óptimos para hipótesis semejantes se exponen en las obras de Wald [87], Le Cum, Rou- 
ssas (véase el libro de Roussas 181]) y Chíbisov [22]. En el libro [14) se analiza la posibilidad 
de extender los resultados principales al caso del parámetro de dimensión infinita (es decir, 
a los procesos aleatorios). La forma de exposición de los 95 14 y 15 está poco relacionada 
con los trabajos citados. En el libro [87) de Wald se ofrece la reducción del problema inicial 
A a un problema B para el parámetro de distribución normal al determinar los criterios Óptl- 
mos de los principales tipos de problemas examinados en el $ 14. La afirmación del teorema 
3.15.4 acerca de la distribución de la estadística 2 In R¡(AX) para la hipótesis H, se examina 
en [93]. Véanse también los comentarios a los $$ 28 y 29 del capítulo 2. 

$9 16 y 17. En el año 1900, K. Pearson propuso el criterio x?, al cual se han dedicado 
muchos libros (véase, por ejemplo, la monografía especial de Lancaster [56)). El examen de 
las diversas propiedades de la optimización se expone en (87), 172), [93], [45], etc. E) comporta- 
miento de la potencia del criterio x? al aumentar el número de grupos se analiza, por ejemplo, 
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en (12) y [21]. Los ejemplos 3.16.1 y 3.17.2 se han adoptado del libro de Cramer [25], y el 
ejemplo 3.17.1, del libro de Rao [76]. 

$ 18. Al estudiar la estabilidad de las decisiones estadísticas es muy difícil seguir la etapa 
inicial de ese estudio. Las investigaciones posteriores se basan en los trabajos de Takeuchi, 
Hodges y Letbmann. En el libro (47) de Huber se hace un resumen detallado de dicha ten- 
dencia. 


Capítulo 4 


$ 1. El criterio x? en el problema del ejeraplo 4.1.1, el criterio de Student en el problema 
del ejemplo 4.1.3 y el criterio de Fisher en los problernas de los ejemplos 4.1.4 y 4.1.5 se utilizan 
muy a menudo, En el libro [57] de Lehmann se dan otras propiedades de optimización de 
estos criterios, El ejemplo 4.1.1A se ha tomado del libro [76]. Hay muchos libros (véase [57)) 
dedicados al problema de Beherns — Fisher (ejemplo 4.1.6). 

$ 2. Gnedenko y Korolluk (véase [32]) hallaron la distribución exacta de la estadística 
Da... Y Smirnov, la distribución límite de la estadística D,,.»,. El teorema 4.2.2. fue dernos- 
trado por primera vez en [62] con ayuda del método de momentos. Los criterios de signos 
y de Wilkoxon también se ofrecen en [41]. 

5$ 3 y 4. Los problemas de regresión y análisis de varianza se exponen más detalladamente 
en las monografías especiales de Seber (83] y Scheffe (82). Véanse asimismo [25], [$7] y [76]. 

$ 5. La observación acerca de la optimización asintótica del criterio (4.5.3) fue tomada 
de (10). 


Capítulo $ 


En matemática, la tendencia relacionada con la teoría de los Juegos surgió tras la publica- 
ción de los trabajos de Borel en 1921 y de von Neumann en 1928. En la estadística matemática, 
como trabajo inicial, que preparó el uso de la teoría de los juegos, puede considerarse la 
obra clásica de Neyman y Pearson [70], en la que se enuncian muchas ideas fundamentales 
de la teoría de las decisiones estadísticas. Wald contribuyó considerablemente al desarrollo 
de la teoría general de las decisiones estadísticas. En su libro conclusivo [90] se exponen los 
postulados fundamentales de esta teoría. No obstante, la teoría matemática general de los 
juegos adquirió su pleno desarrollo en el libro de von Neumann y Morgenstern [65). 

Los fundamentos de la teoría de los juegos estadísticos plantean de una forma muy acce- 
sible en los libros de Girshik y Blackwell [7] y de Ferguson [33]. 

$ 2. El Hbro de McKinsey [63] constituye una introducción relativamente completa a la 
teoría ordinaria de los juegos. 

$9 3 y 4. En [7] y [33] se da una descripción más completa de los fundamentos de la 
teoría de los juegos estadísticos. En estos libros, dos teoremas fundamentales de la teoría 
de los juegos estadísticos sólo se demuestran en el caso particular, para los conjuntos discretos 
D y 0. Ello se explica por el hecho de que la exposición en el caso general es muy compleja 
(véase [90)). En el Suplemento VIII se da la demostración más simple que conocemos de 
tales teoremas, la cual fue hallada por A, 1. Sajanenko. 

El papel del enfoque bayesiano en distintos tiempos se evaluaba de manera diferente. 
El mismo ha sido ampliamente utilizado por Laplace en el siglo pasado. Después fue criticado 
por Fisher, y ea los años 20 y 30 de nuestro siglo, el centro de gravedad se desplazó hacia 
las estimaciones eficientes y asintóticamente eficientes. Más tarde, a medida que se concebía 
la importancia fundamental del referido enfoque, otra vez comenzó a crecer el interés por 
él. Esa importancia fundamenta) es aclarada en los teoremas $.3.1 y 5.3.2. 

$ 5. El concepto fundamental de estadística suficiente fue introducido por R. Fisher [34) 
en el año 1922. R. Fisher [34] y más tarde J. Neyman [66) propusieron un criterio simple 
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que revela la cxistencia y el tipo de estadística suficiente. Este criterio es conocido con el 
uombre de teorema de factorización de Neyman — Fisher y está representado en el teorema 
2.12.1. La estricta demostración del teorema de Neyman — Fisher, desde el punto de vista 
de la teoría de los conjuntos, fue obtenida tan sólo en 1949 por Halmos y Savage (43). 

El concepto de c-álgebra suficiente es más amplio que el concepto de estadística suficien» 
te. Las condiciones necesarias y suficientes para su coincidencia se dan en (95]. El teorema 
5.5.1 (primero para la función cuadrática de pérdidas) fue indepeadientemente obtenido por 
Blackwell [6) (1947), Rao [74] (1945), [75] (1949) y Kolerogórov [53] (1950). Las generaliza- 
ciones para el caso de función arbitraria de pérdidas están íntimamente ligadas a los nombres 
de Lehmano y Scheffe [95]. 

A Hotelling y Pitman les pertenece la idea de utilizar las consideraciones invariantes. 
Ch. Stein (véanse [95] y (48)) contribuyó considerablemente al desarrolto de la teoría. 

En [95] se ofrecen datos más detallados acerca del carácter no desplazado. 

$ 6. El libro [48] de Ibraguimov y Jasminski contlene resultados semejantes a los teoremas 
de este párrafo. 

$ 7. El carácter asintóticamente bayesiano del c.r.v. fue establecido en el trabajo del autor 
de [10]. Los resultados de la distribución límite de la relación de verosimilitud para la hipótesis 
principal fueron obtenidos por Wilks (92) y Wald 187] (vénse también el libro de Wilks [93)). 
Wald utilizó la idea de sustituir la hipótesis compleja por una bipótesis promediada. Bl tipo 
asintótico de criterios bayesianos se expone en [60). 

$ 8. Las principales ideas relacionadas con la determinación de los tests asintóticamente 
óptimos para hipótesis semejantes se examinan en los trabajos de Wald 187], Le Cam, Roussas 
(véase el libro [81] de Roussas) y Chíbisov (22). Bn [15] se estudia la posibilidad de extender 
los resultados principales al caso de un parámetro de dimensión infinita (es decir, a los proce- 
sos aleatorios). La forma de exposición del $ 8 y de los $5 14 y 15 del capítulo 3 está poco 
relacionada con los trabajos citados. La reducción del problema inicial A a un problema B 
(para el parámetro de distribución normal), al determinar los criterios óptimos para los princi- 
pales tipos de problemas, se analiza en el trabajo de Wald [87]. 


Suplemento VII 


Fue A. A. Mogulski quien propuso utilizar el lema | para demostrar el teorema 2.28. 
La demostración de este lema se remonta a S. L. Sóbolev. La demostración del lema | también 
se puede obtener fácilmente utilizando los resultados de (96). En la edición rusa del libro 
se da otra demostración del teorema 2.28, la cual utiliza ciertas ideas de A. N. Kolmogórov 
acerca de la estimación de la distribución del máximo del proceso aleatorio. 


Suplemento VIO 


La demostración de dos teoremas fundamentales de la teoría de los juegos estadísticos 
se ofrece en [90] y, para suposiciones más particulares, en [7] y [33]. En el libro presente 
se expone el enfoque de la demostración propuesta por A. 1. Sajanenko. Su parte central cons- 
ta de los lemas 2 y 3. De hecho, el lema 2 no está relacionado con el carácter estadístico 
del juego, se basa en los teoremas de Hahn — Banach y de Riss y por su iden se asemeja 
a los razonamientos utilizados, por ejemplo, en [31]. La demostración del lema 3 se basa 
en los teoremas de Kolmogórov [54] y Prójorov [5). 

Al trazar las tablas I—IV se utilizó el libro de Bolshsv y Smirnow (8). 


238" 


Bibliografía 


10. 


12, 


13. 


14, 


Bahadur R. R. On Fisher's bound for asymptotic variances. Ann. Math. Statist., 1964, 
35, 4, 1545—-1552. 

Bahadur R. R. An optimal property of the liketihood ratio statistic, Proc. 5-th Berkeley 
Sympos. Math. Statist. Prob. — Berkeley — Los Angeles, v. 1, 1965, 27-40. 
Bahadur R. R. Some limit theorems in statistics. — Philadelphia: S.I.A.M., 1971. 
Bahadur R. R., Lehmann E. L, Two coraments on “Sufficiency and statistical decision 
funcions”. — AMS. 1955, 26, 139—141. 

Billingsley P Convergence of probability measures, N.Y., Wiley, 1968. 

Blackwell D. Conditíonal expectation and unbiased sequential estimation. — Ann. Math. 
Statist., 1947, 18, 105110. 

Blackwell D.,, Girshik M. A. Theory of games and statistical decisions, N.Y., Wiley, 1954. 
Bonvusee JT. H., Cmupxoe H. B, Ta6nmub MatemaTiyvecrol cTaTacrixm. — M.: 
Hayxa, 1965. 

(Bdlshev L. N., Smirnov N. V. Tablas de estadística matemática.) 

bopoexos A. A. BeposTHOCTHME MPONCECCH B TOOPHA MACCOBOFO OSCNYKHBAHAA. — 
M.: Hayxa, 1972. 

(Borovkov A. A. Procesos probabilísticos en la teoría de las colas.) 

boposxoe A. A. ACHMNTOTUICCKA ONMTHMAJIBAMIC TOCThHI ¡VIN HPpOBCPEM CIOMMHBIX 
THTIOTEIS. — TOOpHA BEPORSTH. H ee npamcn., 1975, 20, 3, 463437. 

(Borovkov A. A. Tests asintóticamente óptimos para verificar las hipótesis compuestas. — 
Teoría de las probabilidades y su aplicación.) 


. Bopoexos A. A. Teopas sepostuocref. — M.: Hayxa, 1976, 


(Borovkov A. A. Teoría de las probabilidades.) 

Bopoexos A. A. O MONMHOCTH KPETEDAS NMPH YOenHacaga “Bcra rpymm. — Teopma 
BEPONTH. B 60€ TprRMEH., 1977, 22,2, 375379. 

(Acerca de la potencia del criterio al aumentar el número de grupos. Teoría de las probabili- 
dades y su aplicación.) 

Bopoexos A. A., Caxanenxo Á, M. Hepasescrpa tuna Pao-Kpamepa ana Gallecopcroro 
pucka, — TEOPAR BEPorTH. E eempumen. 1980, 25, 1, 207—209. 

(Borovkov A. A., Sajanenko A. 1. Desigunidades del tipo de Rao — Cramer para el riesgo 
bayesiano.) 

bopoexos A. ÁA., Caxanenxo A. H. O6 acumMiToTRuUecKa ONTAMAJILMBIX TECTIX NX 
NMPOBEDpxHA CIOMMLIX THNOTES. — Tpyns Mncturyra maremaruxn CO AH CCCP, 1981, 
7.1. 

(Acerca de los tests asintóticamente óptimos para verificar las hipótesis compuestas.) 


15. 


16. 


17. 


18. 


19. 


E E 


S 33D 


23 


32. 
33. 
34, 


35. 


BIBLIOGRAFÍA 589 


Bopoexos A. A., Caxmmenxo A. H. O6 acÓmniTOTANECKA ONTHMAJTLHBIX TECTAX JUIA 
TPOBEPXEM —CAOMHBX ÓNTHIKHA THMTOTE3. — Tpyns Mncratyrta maremarmaxa CO 
AH CCCP, 1982, T. 1. 

(Borovkov A. A., Sajanenko A. I. Acerca de los tests asintóticamente óptimos para verif)- 
car las hipótesis compuestas semejantes.) 

Boposxos A. A., Cutuesa H. M. O HEeKrOTOPbIX ACHMNITOTHNECKA ONMTHMANDBHDIX 
HErapaMerpuuieckHx xpHTepmax. — Teopra BepoxTH. 4 ee npuamen., 1968, 13, 3, 
385-418. 

(Borovkov A. A., Sicheva N. M. Acerca de algunos criterios no paramétricos asintótica- 
mente óptimos.) 

Chapman D. G., Robbins H. E. Minimum varianoe estimation without regularity assump- 
tions. — Ann. Math. Statist., 1951, 22, 581-586. 

Yenyos H. H. O6 onenxe HemapecrTroró MHOFOMEepHOrO HOPMAaJIbHOro pacmperene- 
HBa. — Teopus BeposTy. á ee npumenes., 1967, 12, 4, 619-633. 

(Chentsov N. N. Acerca de la estimación de la distribución normal multidimensional me- 
dia desconocida. Teoría de las probabilidades y su aplicación.) 

JYenyos H. H. CTATECTHICCKHO PECLUAIOUIREO MIPABANIA H ONTHMAJIDALIE BRIBOADI. — M.; 
Hayxa, 1972. 

(Chentsov N. N. Reglas estadísticas de decisión y deducciones óptimas.) 


. Yu6ucos 1. M. O KpHTepuzx Cornacia, OCHOBAHHBIX HA BLIGOPOvHBIX NPOMEXKYT- 


KAx. — Teopua BeposTH. n oe npumen., 1961, 6, 1, 354-353. 
(Chíbisov D. M. Acerca de los criterios de aceptación basados en los intervalos muestra- 
les. — Teoría de las probabilidades y su aplicación.) 


. Tubucos Jl. M., Teamyenad3€e J7. O KpHTEpHAX COFNACHA, OCHOBAHHDIX HA CFPyTINMPo- 


BQBHbIX Mamma. — B xum,: 111 Conercxro-AnorckueñA Camrn03HyM JO TEOPDHM BOPOATHO- 
creí. — Tanmnent: Pan, 1975, 183-.185. 

(Chtíbisov D. M., Gvantseladze L.. Acerca de los criterios de aceptación basados en los 
datos agrupados.) 

Chiíbisov D. M. Transition to the limiting process for derting asymptotically optimal tests. 
Sankhya, 1969, A31, 3, 241—258. 


. Cox LA, Hinkty D. Theoretical statistics, Chapman and Hall, London, 1974. 


Cramer H. A contribution to the theory of statistical estimation. — Aktuariestidskrift, 
1946, 29, 458-463. 

Cramer HF. Mathematical Methods of Statistics, 1946. 

David H. A. Order Statistics, N.Y., Wiley, 1976. 

De Hardt T. Generalizations of the Glivenko — Cantelli theorem. — Ann. Math. Stat., 
1971, 42, 2050-2055. 

Donsker M. Justifications and extension of Doob's heuristic approach to the Kotmogó- 
rov — Smirnov theorems. — Ann. Math. Statist., 1952, 23, 277—281. 

Doob J. L. Probability and statistics. — Trans. Amer, Math. Soc., 1934, 36, 4, 759775. 
Doob J. L. Stochastic Processes, N.Y., Wiley, 1933. 


. Edwards R. E Functional analysis, HOLT, Rinehart and Winston, New York, Chicago, 


San Francisco, Toronto, London, 1965. 

Feller W. An Introduction to Probabitity Theory and its Applications, vols. 1, 11, N.D., 
Wiley Bastern, 1972. Si 

Ferguson J. S. Mathematical statistics. A decision theoretic approach. — New York and 
London: Academic Press, 1967. 

Fisher R. A. On the mathemartical foundations of theoretical statistics. — Phil. Trans. 
Roy. Soc. A, 1922, 222, 309368. 


Fisher R. A. Theory of statistical estimation. — Proc. Camp. Phil. Soc., 1925, 22, 
700723. 


$90 BIBLIOGRAFÍA 


36. Fisher R. A. Inverse probability. — Proc. Cambridge Phill. Soc., 1930, 26, 528—-535. 

37. Frechet M, Rev. Intern. de Stat. 1943, 182. 

38. Fuxmax H. M., Cxopoxod A. B. BeenenHe B Teopxio CIyuañHnIx npouecco». — M.: 
Hayrxa, 1977. 

(Guijmán 1, 1, Skorojod A. V. Introducción a la teoría de los procesos aleatorios, en 
ruso.) 

39. Grenander U. Stochastic processes and statistical Interference, Ark. Math., 1,3, 1960, 
195-277. 

40. [Ycee C. M. ACHMATOTHHECKAO PANIOICHHA, CBAJAHHDIC C REXOTOP5IMAB CTATHCTHNUCCKA- 
MM OLEHKAMM B rjñanxom cryuge. — TeopHs BepoatH, H ee npumen. — 1976, 21, 1, 
16-33. 

(Gusev S, 7, Desarrollos asintóticos relacionados con algunas estimaciones estadísticas en 
un caso suave. — Teoría de las probabilidades y su aplicación.) 

41. Hajek J.,, Sidak Z. Theory of rank tests. Academía Publishing House of the Czechoskovak 
Academy of Sciences, Prague, 1967. 

42. Halmos P R. Measure Theory, Princeton, N.Y., Van Nostrand, 1962. 

43. Halmos EP R., Savage L. J. Application of the Radon-Nikodym theorem to the theory of 
sufficient statistics. — Ann. Math. Statist., 1949, 20, 225—-241. 

44. Hodges J., Lehmann E. Some problems in minimax estimation. — Ann. Math. Statist., 
1950, 21, 2, 182—197. 

45. Hoeffding W. Asymptotically optima) test for multinomial distributions. — Ann. Math. 
Statist, 1965, 36, 2, 369.401. 

46. Hotelling H. The generalization of student's ratio. Ann. Math. Statist., 1931, 2, 360-378. 

47. Huber P. J, Robust statistics: a review. — Ann. Math. Statist., 1972, 43, 1041-—1067. 

48. H6pazumos MH. A., Xacomuncxud P. AcHMITOTBNUCCKAR TOOPHA ONCHHBAHMA. — M.: 
Hayxa, 1979. 

(Ibraguímov 1. A., Jasminski P. Teoría asintótica de la estimación.) 

49, Kendall H. G. Stuart A, Interference and Relationship, Charles Griffin 4 Company Limi- 
ted, London, 1967. 

$0. Kendall M. G., Stuart A. The advanced theory of statistics, vol. 2, Ch. Griffin 4 Com- 
pany Limited, London, 1961. 

$1. Kiefer J. On minimum variance estimators. — Ann. Math. Statist., 1952, 23, 627-629. 

$2. Kiefer J. On large deviations of the Identically distributed functions of vector chance va» 
riables and LIL, — Pacif. J. Math. 1961, 11, 2, 649—660. 

$3. Konmozopos A. H. Hecmeuientibie ouenxm. — Mas, AH CCCP, cep. Mar., 1950, 303. 
(Kolmogórov A. N. Estimaciones no desplazadas.) 

54. Koamozopos A. H. OcHoBHbe MOHATHA TEOPHH BEPosTHOCTER — M.: Hayxa, 1974. 
(Kolmogdrov A. N. Conceptos fundamentales de la teoría de las probabilidades.) 

55. Kuliback S., Leibler R. A. On information and sufficiency. — Ann. Math. Statist., 1951, 
22, 79—86. 

56. Lancaster H. O. The chi-squared distribution. — NY, Wiley, 1969. 

57. Lehmann E. L. Testing statistical hypotheses, John Wiley, New York, 1959. 

$8. Lehmann E L. Theory of polnt estimation, Wiley, N.Y., 1983. 

59. Lehmann E. L., Scheffe H. Completeness, similar regions and unbiased estimatiion, — 
Pt. 1, Sankhya, 1950, 10, 305—340. 

60. Lindley D. The use of prior probability distributions in statistical incerference and deci- 
sion. — Proc. 4-4h Berkeley Sympos. Math. Statist. Prob., Berkeley — Los Angeles, v. 
1, 1960, 453-468. 

61. Loeve M. Probabillty Theory, 2nd ed., D. Van Nostrand Co., 1960. 

62. Mann H. BR, Whitney D, R. On a test whether one of two random varjables is stochastica- 
lty lerger than the othez. — Ann. Math. Statist. 1947, 18, SO. 


70. 


78. 


79. 


81. 


BIBLIOGRAFÍA 591 


. McKinsey J. C. C. Introduction to the theory of games. — McGraw-Hill, N.Y., 1952, 
. Moran P A. P The random division of an interval, — J. Roy. Stat. Soc., Supp)., 1947, 


9, 92—98. 


. Van Neumann. Morgenstern, Theory of Games and Economic Behaviour, Princeton, Prin- 


ceton University Press, 1953. 


. Neyman J. Su un teorema concernente le cosidette statistiche sufficienti. — lost. (tal, Atti. 


Giorn., 1935, 6, 320-334. 


. Neyman J, First course in probability and statistics,, Holt, Rinehart and Winston, JNC, 


NXY., 1950. 


. Neyman J. Pearson E. S. On the use and interpretation of certain test criteria. — 


Biometrica, 1928, 20A, 175—-240, 263—294, 


. Neyman J, Pearson E. S. On the problem of the most efficient test ofystatistical hypothe- 


ses, — Phil, Trans. Roy. Soc., Ser. A, 1933, 231, 289—-337. 
Neyman J.,, Pearson E. S. The testing of statistical hypotheses in relation to probabilíties 
a priori. — Proc. Camb. Phil. Soc. 1933, 24, 492—S10. 


. Oosterhoff J. W. R. van Zwet. The likelihood ratio test for the multinomial distribution. 


Proc. 6-th Berkeley Sympos. Math. Statist. Prob., Berkeley — Los Angeles, v. 1, 1970, 
31—-50, 


. Porzen E. On estimation of a probability density function and mode. — Ann, Math. Sta- 


tist., 1962, 33,3, 1065—1076. 


. Pitrnan E. J. G. The estimation of the location and scale parameters of a continuous po- 


pulation of any given form. Blometrica, 1938, 30, 391—421. 


. Rao C. R. Information und accuracy attalnable in estimation of statistical parameters. 


Bull. Calcutta Math. Soc., 1943, 37, 81-—91. 


. Rao C. R. Sufficient statistics and minimum varlance estimates, — Proc. Cambr. Phill. 


Soc., 1949, 45, 213—-218. 


, Rao C. R. Linear Statistical Interference and its Applications. 2nd ed., Wiley: N.Y., 1973. 
. Cxopoxod A. B_ Cryuaftuble nMponeccti € HEJABACHMBIMH TMPHpauiemnpmama. — M.: 


Hayxa, 1964. 

(Skorojod A. V. Procesos aleatorios con incrementos independientes.) 

Cuuphos H. B. O pacupenenenma w -xparepaa Muneca. — B > xH.: CMHEDEOR H. B. 
Teopaa BeposTuocteR 4 MarTemarruecxas cratmcruxa. M36pamHble Tpyabl. — M.: 
Hayxa, 1970. 

(Smirnov N. V. Acerca de la distribución del w*-criterio de Mises. — En el libro: Smir- 
nov N. V. Teoría de las probabilidades y estadística matemática.) 

Rosenbiatr M. Remarks on some nonparametric estimates of a density function. — Ann. 
Math. Statíst., 1956, 27, 3, 832-837. 

Rosenblatt M. Curve estimation. — Ann. Matb. Statist., 1971, 42, 6, 1815.1842. 
Roussas G. Contiguity of probabílity measures. Cambridge University Press, 1972. 


82. Scheffe H. The analysis of variance, Wiley; N.Y., 1959. 


83. 
84. 


85. 


Seber G. A. Linear regression analysis, Wiley; NY., 1977, 

llupaes A. H. Bepornruocte. — M.: Hayxa, 1980. 

(Shiriaev A. N. Probabilidad, en ruso.) 

Sídorov V. A. y otros. Measurement of the y > r*x” branching ratio, — Physics Le- 
tters, 1981, 99B, 1, 62—65. 


86. van der Waerden. Mathematische Statistik. Springer-Verlag, 1957. 


87. 
88. 


89. 


Wald A. Tests of statistical hypotheses concerning several parameters when the number 
of observations is large. — Trans. Amer. Math. Soc., 1943, $4, 3, 426—-482. 

Wald A. Note on the consistency of the maximum likelihood estimate — Ann. Math. 
Statist., 1949, 20, 595—601. 

Wald A. Sequential analysis, Wiley, NY., 1947. 


592 BIBLIOORAFÍA 


90. Wald A. Statistical decision functions, New York, 1950, 

91. Weiss L. The asymtotic power of certain. tests of fit based on sample spacings. — Ann. 
Mach. Statist., 1957, 28, 3, 783—786. 

92. Wilks S. S. The large sample distribution of the líkeli-hood ratio for testing composite 
hypothesis. — A. Math, Statist., 1938, 9, 60--62. 

93. Wilks S. S. Mathematical Statistics, Wiley, N.Y., 1962. 

94. Woifowítz J. On Wald's proof of the consistency of the maximum liketihood estimate — 
Ann. Math. Statist., 1949, 20, 601—602. 

95. Zacks S. The theory of statistical interference, Wiley, N.Y., 1971. 

96. Padoees 1. K., Byaux B. 3. u ap., Mabpanuole rabo anasnu3a Ñ Boicueñi anreópss., 
Jlenaurpan, Man-30 JITY, 1981, 199 c. 
(Foddéev D. K., Vúlij B. Z. y otros. Capítulos escogidos del análisis y el álgebra superior.) 


Designaclones principales 


Las designaciones se dan en orden alfabético: primero el alfabeto ruso, después el latino 
y el griego. Al final se ofrecen los símbolos matemáticos. 


(Ao), condición de correspondencia biunivoca entre el conjunto paramétrico O y la farni- 
lla de distribuciones 24 = (Po) rco(Po, Po, si 9, » 02) 

(A¿), condición consistente en que el conjunto paramétrico O es compacto 

(A,), condición en virtud de la cual todas las distribuciones de la familia 2= (Ps) son 
dominadas por la medida a (existe la densidad f, = dP ./da) 

b, D(6), desplazamiento 

Y, oálgebra de los conjuntos de Borel sobre la recta R 

Vaz, oálgebra en el espacio de fase 2” (de los conjuntos de Borel si Q= R” 

B,, distribución polinomial (incluyendo la distribución de Bernoulk) 

Cía, b), espacio de las funciones continuas en [a, b] 

c.a.b., criterio asintóticamente bayesilano 

ca.3.m.p., criterio asintóticamente uniforme más potente 

c.d., casi por doquier 

cm.p., criterio más potente 

c.r.y., criterio de la relación de verosimilitud 

Cf. casi todos (los) 

c.u.m.p., criterio uniformemente más potente 

Día, b), espacio de las funciones en (a, 5], continuas a la izquierda (en el punto e a 
la derecha) y que sólo tienen un número finito de saltos 

D, espacio de las estrategias del primer jugador (en el cap. 4) 

De, varianza de la distribución P, 

2, espacio de las funciones de decisión en un juego estadístico 

E, matriz unidad 

e.m.c., esperanza matemática condicional 

ev.r., estimación de la verosimilitud máxima 

S, familia exponencial de las distribuciones 

Jeíx), densidad de la distribución P+ respecto a la medida » 


JuX), función de verosimilitud igual (por definición) a ]] f(x 
de1 


F(x), por regla general, la función de distribución correspondiente a la distribución P 
Fa(x), función empírica de distribución 
Fx,2,, distribución de Fisher 
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G, grupo de transformaciones de 2” en sí, correspondiente a la familia Invariante 
h,, cuantila de la distribución 

H,, Nipótesis 

Ha, distribución x?* 

f,, distribución concentrada en el punto x 


160) = UN, 1/66) = Mo 16, o IGa, O), matriz de información de Fisher 
L ) 


Za, indicador del conjuato A 

K,, clase de estimaciones con desplazamiento b = b(0) 

Ko, clase de estimaciones no desplazadas 

Ko, clase de estimaciones asintóticamente no desplazadas 

K", clase de estimaciones asintóticamente centrales 

Ko.2, clase de estimaciones asintóticamente normales 6”, para las cuales Mon(0” — 


— 07 => o“(0), donde o*(6) es la varianza de la distribución normal límite para Va(9” — 0) 


Ke. (en el cap. 3) clase de criterios de dimensión e (de nivel 1 — 8) 

K,, clase de criterios no desplazados de dimensión e 

Ko, clase de criterios de nivel asintótico 1 — e 

K%», clase de criterios de dimensión «e para el enfoque parcialmente bayesiano 


Re , Clase de criterios de dimensión asintótica e para el enfoque parcialmente bayesiano 
Ka,....a .,» clase de criterios con valores fijos a de las probabilidades de los errores de 


¿-ésimo género, |< 1, ..., + — 1 


Ka.,, distribución de Cauchy 

Nx, 8) = ln fo) 

L(X, 0) = In fo(%), función logarítmica de verosimilitud 

Lu... distribución lognormal 

Mo, esperanza matemática de ta distribución Pos 

M(£/U), esperanza matemática condicional £ respecto a la o-álgebra U 
M(£/n), esperanza matemática condicional E respecto a la variable aleatoria y 
am, volumen de la muestra 

Np, Nr, portador de la distribución P con la función de distribución £ 
P, simbolo de la distribución, utilizado distintos sentidos 

P(8B/y), distribución condicional 

P;,, disuibución empírica 

P+, distribución dependiente del parámetro 

2, familia de distribuciones 

Q, estrategia randomizada de la “naturaleza” (distribución a priori de 0) 
Q,, distribución s posteriori de 0 

Q, la peor distribución de 0 (estrategia minimáx de la “naturaleza”) 
q(/X), densidad de distribución a posteriori de 6 

R, recta real 

R”, espacio euctíideo m-dimensional 

(R), condición de regularidad de la familia paramétrica en cuya virtud la función Vf» 00 


es continuamente derivable respecto a Ú, y la información de Fishes es positiva y continua 


(RR), condiciones de regularidad de la farnilta paramétrica, que exigen el cumplimiento 


de las condiciones (40), (A) y (R), así como de la derivabilidad continua de segundo orden 
de la función !(x, 6) y de la existencia de la mayorante !(x) > 11” (x, £)t, para la cual la integral 
de Mol(x1) converge uniformemente hacia O 


S = S(X), estadística 
S?, varianza empírica 
Si, varianza empírica correspondiente a la muestra X 
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Ss 
n-—1 

Ta, distribución de Student 

Us», distribución uniforme en [a, b] 

u* = Yn(0” — 0), estimación normalizada de verosimilitud máxima 

w(0, (no siempre) proceso wleneríano 

»*(1), puente brownlano 

w”((), proceso empírico 

x1 — elemento de la muestra 

X= Xa = (41, ..., Xa) — muestra de vohumen » 

[Xojn = Xa — parte de una muestra infinita, constituida por primeros Áh elementos de 
esta última 

Xin» I-ésimo elemento de una serie variacional 

X, medía empírica 

2, espacio al cual pertenecen observaciones (espacio de fase de la muestra) 

(2%, Ba, P), espacio probabilístico muestral correspondiente a una observación 

(2, Bm» P), espacio probabilístico muestral correspondiente a la muestra de volumen mn 

x m(X1, ...., Xa), elemento de 2" 

cu(w) — probabilidad del error de ¡-ésimo género del criterio x* 

B(8), potencia del criterio Y 

B+(8), función de potencia del criterio x 

Ba,» distribución beta 

Tar, distribución gamma 

5 = 8(X), (en el cap. 3) regla (criterio) de decisión o (en cap. 5) función de decisión 

á, estrategia del primer jugador 

fp, cuantila de orden p 

fp, cuantila muestral de orden p 

6, parámetro (estrategia de la “naturaleza”) 

6”, fronteras del intervalo confidencial pará el parámetro $ 

9”, estimación del parámetro 0 

92, estimación bayesiana del parámetro 6, la cual corresponde a la distribución a priori Q 

6”, estimación minimáx del parámetro 6 

5”, estimación de verosimilitud máxima del parámetro 9 

8, conjunto de valores posibles del parámetro 0 

8”, conjunto confidencial 

As, cuantila de la distribución normal 

* = T(X), (en el cap. 3) criterio randomizado o (en los caps. 3 y 5) regla (criterio) rando- 
mizada de decisión 

r, estrategia randomizada del primer jugador 

zo, criterio (estrategia) bayesiano correspondiente a la distribución a priori Q 

x*o.0,, Ccriterlo bayesiano para el enfoque parcialmente bayesiano 

x, criterio (estrategia) minimáx 

x, criterio de la relación de verosimilitud 

w?, criterio uniformemente más potente 

Th,, distribución de Poisson 

%. ,. distribución normal 

$(), función de la distribución estándar normal 

5» simbolo que significa la coincidencia de las distribuciones de muestras o de variables 


aleatorias 
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O sígno de convergencia en probabilidad 
a», signo de convergencia casi segura (con probabilidad 1) 


=, signo de convergencia débil de las distribuciones (se utiliza tanto entre las variables 
aleatorias como entre las distribuciones) 

€, signo utilizado entre las designaciones de la muestra (de la variable aleatoria) y de 
la distribución: significa que la muestra fue extraída de una distribución dada (la variable 
aleatoria tiene una distribución dada) 

€, signo de convergencia débil. La relación E € P quiergdecir que la distribución E, * 
converge débilmente hacia P cuando n — «o 


Coeficientes de correlación muestrales 38 
Coudición (Ao) 93, 95 

— (Ao) 212 

— (An) 93 

— (R) 162, 170 

— (RR) 227, 253 

Conjunto asintótico confidencial 280 
— confidencial 280 

-— — invariante 349 

— — más exacto 343 

-— -— no desplazado 343 

Contracción del método de sustitución 


86 

Convergencia uniforme de la integral 227 

— — €n distribución 262 

: == — Probabilidad 262 

Criterio 287. 

-—— asintóticamente bayesiano 390, 397, 
398 

—- — equivalente 309, 399 


- — uniforme y más potente 397 

— bayesiano 289, 319, 320, 352 

— de Kolmogórov 381 

— — — — Smirnov 454 

—- — la relación de verosimilitud 364 


indice alfabético de materias 
Agrupación de los datos 418 — — Morán 384 
Análisis sucesivo 368 -— — nivel asintótico 302, 390 
— — signos 384, 435 
Cálculo aproximado de las ev.m. 239 -— — verificación de la homogencidad 
Cayaterísticas muestrales 32, 37 436, 454 
Cláse completa de estrategias $01 — — Wilkoxon 456 
Ctasificación de las partículas 241 — conciliable 380 


— más potente 288, 295 

— no desplazado 332 

— — paramétrico 384, 454 

— sucesivo 370 

— uniformemente más potente 318, 320 
e 414, o 

— w* (de Mises-Smirnov) 382 

Cuantila 33 

— muestral 33 


Densidad a posteriori 132 

-- — priori 132 

-— condicional 129 

Desigualdad de Cauchy-Buniakovski para 
las emo, 126 

— == — mm — — matrices 172 

— — Jensen para e em. 126 

— — Rao-Cramer 1 

— — — = (de diera) 216 

— — — — (integral) 1! 

Desplazamiento 104 

Dimensión del criterio 296 

Distancia de Hellinger 207 

— A 207, 306 

Distribución 24 

— a posteriori 132, 289 

— — priori 132, 289 
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— — Polsson 83 

— — Student 77 

-- degenerada 82 

— empírica 28, 36 

— — suavizada 64 

— exponencial 75 

— gamma 73 

— lognormal 82 

— menos favorable (peor o pésima) 134, 
294, 331, 355, 498 

— normal 72, 73 

— polinomial 83 

— uniforme 79 

— xy (ji-cuadrado) 74 


Elipsoide de dispersión 113 

Enfoque asintótico de la comparación de 
estimaciones 107, 111, 117 

— bayesiano completo 319, 352 

— parcialmente bayesiano 319, 353 

—— Estándar de la comparación de las 
estimaciones 104, 111 

Esperanza matemática condicional 121, 


-- =. trivial 145 

Estadísticas de tipo | y ll 34 

Estimación 71, 34 

by a bayesiana 138, 203, 

— — eficiente 117, 236 

— — minimax 138, 139, 206, 523 

— — normal 88 

— — R-bayuslana 204 

— — R-eficiente 166 

— bayesiana 133, 139 

— eonciliable 86, 87 

— de la densidad 66 

— del parámetro de desplazamiento 184, 
190 

— — — de escala 184 

— de Pitman 186 


— — Sustitución 8$ 

— == verosimilitud máxima 97, 235 
== Eficiente 115, 116, 120 

— equivariante 185, 193, 195 
— fuertemente conciliable 87 
— minimax 134, 139 

— inadmisible 115 

— no desplazada 104 

— por intervalo 269 

— R-eficiente 166 

— sucesiva 268 

— suficiente 152 

— tupereficiente 198 
Estrategia 491 


-— uniformemente Óptima 491 


Familia completa de distribuciones 134 

— expouencial de distribuciones 157 

— invarlante 194, 337 

Fórmula de Bayes 132 

— — la probabilidad completa 126 

Frontera de los intervalos confidenciales 
270 

Fuecute de radiación 191 

Función de decisión (regla de decisión, 
decisión, solución) 502 

— — — asintóticamente bayesiana $35, 
537 

— —-—- -= minimáx $37 

— — — ipnyvariante $18 

— — — (regía de decisión, decisión, 
solución) no desplazada $16 

— — — randomizada 304 

— — verosimilitud 99 

— empírica de distribución 29, 36 

— logarítmica 99 

Funcional continuamente derivable S6 

Funcionales de tipos 1 y 11 33 


Hipótesis compuesta 315 

-— fundamental 296, 315 

— simple 287 

Hipótesis próximas (semejantes) 307, 395 


Información de Fisher 162, 177, 210 
Intervalo asintótico confidencial 271 


ÍNDICE ALFABÉTICO DE MATERIAS 599 


Juego de dos personas 491 
— estadístico 303 
— randomizado (promediado) 493, 496 


Lema de Neyman-Pearson 298 

— — — generalizado 329 

Ley del logaritmo repetido (reiterado) 37, 
236 


— uniforme de los grandes números 262 


Mediana muestral 32 

Método de distancia mínima 92 
— -—= momentos 90, 92 

— — sustitución 84 

— — verosimilitud máxirma 95 
Momentos muestrales 32, 37 
Muestra 25 


Nivel de conflanza 270 
— — significación del criterio 316 
== realmente alcanzable 317 


Orbita 195 


Portador de la distribución 33 
Potencia del criterio 296, 317 
Precio del juego 495 

Principio bayesiano $08 

— de invariación 184 

— — n0 desplazamiento 184, 332 
— — suficiencia 184 


Probabilidad condicional 125 

— del error de ¿ésimo género 288, 292 
— — — de primer género 316 
Problema de Behrens-Fisher 437, 451 
Proceso empírico 47 

— poissoniano 44 

— wieneriano 47 

Puente browniano 47 


Región crítica 296 

Regresión 470 

— lineal 463 

Regresor 464 

Relación de verosimilitud 222, 251 
— monótona de verosimilitud 320 
Riesgo (función de riesgo) 502 
Robusticidad 430 


Serie variacional 29 


Teorema central uniforme del límite 263 

— de Glivenko—Cantelli 29, 31 

— — Neyman-Fisher (de factorización) 
141 

— funcional del límite para los procesos 
empíricos 48 

Teoremas de continuidad 38 


¿5-«4igebra suficiente 145 
— — == mínima 146 


